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神经 网 络 是 计算 智能 和 机 器 学 习 研 究 、 开 发 和 应 用 最 活跃 的 分 支 之 一 。 本 书 是 神经 网 络 
方面 的 标准 教材 ， 从 理论 和 实际 应 用 出 发 全面、 系统 地 介绍 神经 网 络 的 基本 模型 基本 方 
法 和 基本 技术 ， 对 神经 网 络 的 基本 模型 和 主要 学 习 理 论 都 作 了 深入 研究 ， 特 别 在 等 习 理论 可 
学 习 算法 的 推导 方面 有 极为 详尽 而 系统 地 分 析 ， 对 神经 网 络 的 最 新 发 展 趋势 和 主要 研究 方向 
都 进行 了 全 面 而 综合 的 介绍 。 理 论 和 实际 应 用 紧密 结合 ， 为 神经 网 络 的 具体 应 用 打下 坚实 的 
基础 ， 是 一 本 可 读 性 极 踢 的 教材 。 

书 中 注重 对 数学 分 析 方 法 和 性 能 优化 的 讨论 ， 强 调 神 经 网 络 在 模式 识别 、 信 号 处 理 以 及 
控制 系统 等 实际 工程 问题 中 的 应 用 。 同 时 本 书包 含 大 量 例题 . 习题 ， 并 配 有 13 个 基于 
MATLAB 软 件 包 的 计算 机 试 怠 的 产程 序 。 

本 书 适 合作 为 相关 专业 研究 生 或 本 科 高 年 级 学 生 的 教材 ， 或 作为 希望 系统 、 深 入 学 习 神 
经 网 络 的 科技 工作 者 的 参考 书 ， 





是 加 拿 大 McMaster 大 学 教授 . 创办 了 通信 研究 实验 室 . 并 长 期 担任 主任 ， 
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HARRE AE BE AL BE AE od BEY A BETS BAY 3 > -本 书 个 国 系 统 地 介绍 神经 网 
络 的 基本 概念 、 系 统 理论 和 实际 应 用 ， 
本 书包 但 四 个 组 成 部 分 : Si, BRS, ARSE, PARAS, Sit 
分 介绍 神经 元 模型 、 神 既 网 络 结 购 和 机 寓 学 习 的 基本 概念 和 理论 。 监 督 党 习 讨 论 感 基 机 学 习 
规则 ， 有 监督 的 Hebb 学 习 ，Widrow-Hoff 43 BI, RAPRRARE PE, RBM, EW 
化 网 络 ， 支 持 向 量 机 以 及 委员 会 机 器 。 无 监督 学 习 包 括 主 分 量 分 析 ， 日 组 织 特 征 上 映射 模型 的 
竞争 学 习 上 于 式 ， 匹 监督 学 导 的 依 息 理论 ， 慎 根 于 统计 力学 的 随机 学 习 机 郑 ， 最 后 是 与 动态 规 
划 相 关 的 增强 式 学 习 ， 神经 网 络 动 力学 模型 研究 由 短期 记忆 和 分 层 前 馈 网 络 构 成 的 动态 系统 ， 
反馈 非 线 性 动态 系统 的 稳定 性 和 联想 记忆 ， 以 及 另 --: 类 非 线 性 动态 驱动 的 递归 网 络 系统 ， 
i 本 书 注重 对 数学 分 析 方 法 和 性 能 优化 的 讨论 ， 强 调 神经 网 络 在 模式 识别 、 信 和 号 处 理 和 控制 
l 系统 等 实际 工程 问题 中 的 应 用 。 书 中 包 舍 大 量 例 题 和 习题 ， 并 配 有 BAF MATLAB 软件 的 计算 
机 实验 程序 。 
本 书 通 于 必 人 研究 生 或 大 学 高 年 级 学 生 的 教材 ， 也 可 必 希 望 深入 学 习 神 经 网 络 的 科技 入 员 的 
BF. 
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圳 经 网 络 系统 研 究 的 重要 意 疼 已 为 计 多 科学 家 所 承认 ， 它 是 党 能 计算 发 展 的 一 个 主流 方 
i], 2 如 世纪 80 和 华 代 中 期 以 来 ， 神 经 网 络 重 新 引起 了 许多 科技 工作 者 的 兴趣 ， 形 成 近代 非 线 
性 科学 和 计算 智能 研究 的 主要 内 容 之 一 。 特 别 是 神经 网 络 经 护 了 新 近 20 年 的 迅速 发 展 ， 它 
所 具备 的 独特 知识 府 示 结构 和 信息 处 理 的 原则 ， 使 其 在 许多 应 几 铅 域 收 得 了 显著 的 进 居 ， 能 
踪 为 解决 一 些 传统 计算 机 极 难 求解 的 问题 提供 满意 的 解 ， 或 者 为 寻求 满意 解 提供 全 新 的 思 
HF o 

HeRR THR ah BL il A A, Ki EO ROA fee BERR ARS 
一 。 世 界 上 许多 知名 大 学 并 设 了 神经 网 络 的 古 究 生 专门 课程 。 在 中 国 ， 多 年 以 来 神经 网 络 也 
敏 峭 人 许多 著名 大 学 的 研究 生 课 程 ， 使 得 神经 网 络 这 个 信息 处 理工 具 逐 渐 为 许多 特 能 信息 处 
理工 作者 所 掌握 。 

在 神经 网 络 理论 日 浙 成 熟 ， 它 的 应 用 逐渐 扩大 和 深入 的 形势 下 ， 如 何 把 提神 经 网 络 的 研 
究 廊 品 ， 面 问 应 用 和 闸 向 广大 神经 网 络 的 应 用 者 和 研究 者 ,介绍 神经 网 络 的 系统 理论 和 最 新 
发 展 ， 成 为 虱 经 网 络 译 程 教学 面临 的 重大 挑战 。 其 中 如 何 挑选 好 的 教材 成 为 关键 的 第 一 步 。 
目前 国内 已 有 的 一 些 神 经 网 络 教材 ， 其 内 容 还 停 备 在 国际 上 神经 网 络 上 世纪 90 年 代 初 期 的 
AURACE. JRZ AR, FREI 20 年 发 展 的 历史 ， 我 们 可 以 发 现 神 经 网 络 
的 理论 和 学 习 算 法 越 来 越 面 向 信息 处 理 ， 它 们 和 和 牛 物 智能 方面 建 记 联系 的 同时 ， 统 计 理 论 、 
舍 旧 理论 以 及 郑 数 空间 理论 方面 的 联系 日 趋 紧密 ， 这 些 方面 从 最 近 10 年 的 发 展 看 得 更 清楚 。 
不 管 是 从 独立 分 量 分 析 、 文 持 回 量 机 网 络 、 正 则 化 网 络 和 高 斯 过 程 ， 述 是 从 徐 曙 教授 的 阴阳 
机 学 习 理 论 ， 我 们 部 可 以 发 现 性 经 网 络 的 发 展 目标 就 是 成 为 智能 信息 处 理 的 核心 工具 之 一 。 
这 一 点 在 模式 识 刊 领域 已 成 为 现实 。 作 为 者 经 网 络 的 研究 生 教 材 应 该 反映 神经 网 络 的 这 一 饼 
明 特 征 ， 但 自前 国内 出 版 的 多 数 教材 尚 难 达 到 这 一 要 求 。 这 本 书 正 是 反映 了 神经 网 络 研 究 的 
主流 发 展 方 回 和 最 新 研究 内 容 ， 所 以 自 出 版 以 玉 镀 成 为 许多 国际 知名 大 学 的 神经 网 络 研 究 生 
APA, Se RIANA AE I i eS 

本 书 主要 讲述 神经 网 络 的 基本 概念 ， 介 绍 实 用 的 网 络 模型 和 学 习 算 法 。 全 书 分 为 15 章 ， 
四 容 涵 盖 神 经 网 络 理论 导论 、 监 督学 习 、 无 瞧 督 学 习 和 神经 网 络 动 力学 模型 。 神 经 网 络 导论 
包 描 神经 元 模型 利 网 络 和 项 构 、 机 器 学 习 的 基本 理论 。 监 督学 习 包 括 感 若 机 学 习 规 则 、 有 监督 
的 Hebb 学 习 、Widrow-Hof 学 习 算 法 、 反 加 传播 算法 及 其 变形 、RBF A. EMRA. 
持 癌 量 机 网 络 和 委员 会 机 器 。 无 监督 学 习 包 括 主 分 量 分 析 、 目 组 织 特征 映射 、 用 于 无 监督 学 
习 的 信息 理论 、 植 根 于 统计 力学 的 随机 学 习 机 器 和 增强 式 学 习 。 神 经 动力 学 模型 包括 媒人 人 短 
时 记忆 的 分 层 前 馈 网 络 动力 系统 、 递 归 网 络 的 稳定 性 和 学 习 问 题 及 其 在 联想 记忆 中 的 应 用 。 
书 中 注重 对 数学 分 析 方 法 和 性 能 优化 的 讨论 ， 强 调 神经 网 络 在 模式 识别 、 信 号 人 处理 以 及 控制 
系统 等 实际 工程 问题 中 的 应 用 。 同时 本 书包 含 大 量 例题 和 习题 ， 并 配 有 13 个 基于 MATLAB 
软件 的 计算 机 实验 的 源 程 序 : 

清华 大 学 出 版 社 已 经 出 版 李 书 的 影印 版 ， 这 使 得 中 国 的 学生 有 圭 直 接 阅 读 英 文 原版 教 
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M. PEREPERE RUR EEA 睛 影印 版 作为 教材 讲授 神经 网 络 的 过 程 中 发 现 ， 
一 方面 由 于 研究 生 课 时 的 限制 ， 在 一 学 期 内 全 部 讲授 本 书 内 容 极其 困难 ， 所 以 只 能 选择 其 中 
一 些 内 容 讲 授 ; 另 一 方面 ， 钻 于 本 书 材 料 非 常 主 留 吧 其 完整 慎 ， 部 分 夺 解 书 中 及 容 对 于 系统 
学 习 和 车 担 神经 网 络 响 原理 和 全 宪 方 法 是 不 利 的 ， 而 牢 竺 : 背 要 元 整 阅 谈 机 人 不 文 图 难 也 很 
大 。 男 和 外， 出 于 神经 网 络 的 应 用 逐渐 诬 入 和 扩大 ， 许 多 学 习 神 经 网 络 的 其 他 读者 其 实 仪 仅 需 
了 解 神经 网 络 的 基本 原理 和 系统 方法 ， 他们 学 习 神 经 疝 络 的 目的 是 为 了 从 中 找 何 县 体 应 用 领 
域 的 解决 方 靶 或 者 获得 解决 问题 的 新 思路 。 对 于 他 们 而 育 ， 直 接 阅 读 原 闭 是 不 现实 的 ， 而 且 
没有 必要 。 基 于 上 述 原 因 ， 翻 译 出 版 本 书 是 很 有 必要 的 。 

由 于 神经 网 络 的 式 速 发 展 ， 评 老 李 经 网 络 的 新 名 鹿 和 概 个 还 汶 有 确定 的 中 文 翻 译 ， 所 以 
在 本 书 中 几 是 我 们 认为 不 能 完全 确定 的 名 词 或 术语 都 在 其 第 一 次 出 现 的 地 方 给 出 对 应 的 英语 
闻 汇 ， 有 一 些 地 方 甚至 直接 引用 英语 词 沪 本 身 。 最 后 在 书后 还 有 中 英文 对 照 索引 |。 

在 这 本 书 的 翻译 中 ,我 们 力求 忠实 、 淮 确 地 反映 原著 的 内 容 ， 问 时 也 力求 保留 原著 的 风 
黎 。 但 由 于 神经 网 络 属于 多 学 科 交 叉 领 域 ， 研 究 范 围 很 广 ， 近 年 来 研究 成 果 层 出 不 穷 ， 市 且 
至 音 水 平 有 限 ， 书 中 错误 和 不 准确 之 处 在 所 准 免 ， 野 请 读者 批评 指正 。 
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在 这 里 ， 我 们 要 感谢 机 械 工 业 出 版 社 企 章 公 司 组 织 翻译 出 版 这 本 重要 著作 ， 感 谢 编 辑 们 
的 细心 加 工 和 收 疏 ,没有 这 些 本 书 的 出 版 是 不 可 想像 的 。 感 谢 中国 科 学 院 研 究 生 院 2001 级 
和 2002 级 选修 梯 经 网 络 课程 的 研究 生 ， 正 是 他 们 的 需求 才 促 鸽 我 们 翻译 这 本 教材 。 同 时 我 
们 还 要 感谢 中 国 科 学 院 计算 技术 研究 所 智能 信息 处 理 重点 实验 室 的 支持 。 


ef 
2003 年 5 月 于 北京 
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前 6S 


ae 2 SS, BA RUA CHARN, TIT Se SERRA, Ae ei 
经 科学 、 数 学 、 统 计 学 、 物 理学 、 计 算 机 科学 和 工程 学 。 神 经 网 络 具 有 的 一 个 重要 性 质 ， 即 
在 有 教师 或 无 教师 的 情 近 下 能 够 从 竹 人 数据 中 进行 学 习 的 能 力 ， 这 使 得 它 在 不 同 领 域 中 得 到 
WAG, WER., EP ose. SIA, fae ah BASS l 

由 于 神经 网 络 具 有 多 学 科 性 ， 本 书 对 该 主题 进行 了 综合 论述 ， 并 给 出 了 大 量 例 子 、 基 于 
计算 机 的 实验 、 习 题 以 及 参考 文献 进行 补充 分 析 。 

本 书 由 四 部 分 组 成 ， 组 织 如 下 ， 

1. 介绍 材料 。 由 1 SAR 2 章 组 成 。 第 1 划 大 体 寺 定性 描述 什么 是 神经 网 络 ， 它 们 的 
性 店 、 组 成 及 其 起 样 和 信 工 智能 相 联 系 。 这 章 以 一 些 历 史 注 释 结 来 。 第 2 章 提 供 学 习 过 程 的 
许多 侧面 的 概述 及 其 统计 性 质 。 该 音 引 进 了 一 个 重要 概念 ， 即 Vapnik-Chervonenkis( VC) W $, 
用 于 度量 学 当 机 间 所 实现 的 一 簇 分 类 明 数 的 容量 . 

2. 有 有 教师 学 习 机 器 ， 由 第 3 章 至 第 7 章 组 成 。 第 3 章 研 究 这 部 分 中 最 简单 的 神经 网 络 ， 
涉及 一 个 或 多 个 输出 神经 元 但 无 隐藏 神 经 元 的 网 络 。 该 章 描 述 最 小 均 方 {LMS) 算 法 (在 设计 
线性 目 适 应 滤波 冀 时 非常 流行 ;和 感知 冀 收 敛 定 理 。 第 4 章 给 出 利用 反 向 传播 算法 训练 的 多 
Fe fo SSCS ANTE, TE UR LMS 算法 的 一 种 推广 ) 已 经 作为 慷 经 网 络 的 推进 峰 而 
出 现 。 第 5 和 章 给 出 另 一 类 分 层 神 经 阅 络 即 径 向 基 函 数 网 络 详细 的 数学 处 理 ， 它 们 的 构成 包括 
一 层 基 函 数 ， 这 一 章 强调 在 设计 RBF 阅 络 中 正则 化 理论 的 作用 。 第 6 章 描述 一 类 比较 新 的 
学 习 机 器 ， 即 支持 向 量 机 ， 它 的 理论 建立 在 第 2 章 给 出 的 统计 学 习 昌 论 的 材料 上 。 本 书 第 二 
部 分 以 第 了 章 擅 更 ， 讨 论 委 员 会 机 器 ， 它 的 构成 包 丘 几 个 学 习 者 作为 组 成 部 分 、 在 这 AR 
们 描述 总 体 平 均 ， 推 蕉 和 分 屋 混 合 专 家 二 种 不 同 的 构建 委员 会 机 兹 的 上 方法。 

3. ARMS TIA, HS BH 12 竟 组 成 。 第 8 章 把 Hebb 学 习 应 用 到 主 分 量 分 析 ， 
P REARS- ER, BRER PFI, 应 用 于 构造 以 自 组 织 映 射 著称 的 计算 映 
射 。 这 两 章 窒 出 强调 学 习 规 则 根植 十 神经 生物 学 。 种 10 章 注 意 于 设计 无 发 督学 习 算 法 的 信 
息 理 论 ， 强 凋 它 们 在 建 模 、 转 像 处 理 和 独立 分 量 分 析 中 的 应 用 。 第 11 章 描述 植 根 于 和 信息 
理论 有 密切 关系 的 绒 计 力 党 的 月 监督 学 习 机 器 。 第 12 音 ， 介 绍 动态 规划 和 它 与 增强 藉 学 习 
的 关系 。 

4. 非 线 性 动态 系统 ,由 第 13 章 至 15 章 组 成 。 第 13 章 描 述 一 类 由 得 期 记忆 和 分 层 前 馈 
了 网 络 结构 组 成 的 动态 系统 。 第 14 童 强调 涉及 使 用 反馈 的 非 线 性 动态 系统 所 引起 的 稳定 性 问 
题 。 该 章 还 讨论 联想 记忆 的 例子 ,第 15 章 描 述 另 一 类 非 线 性 动态 系统 ， 即 递归 网 络 ， 它 依 
束 干 使 几 反 馈 完 成 输入 - 输出 映射 。 

本 书后 记 人 简要 描述 神经 阅 络 在 构造 用 于 模式 识别 、 控 制 和 售 叶 处 理 的 逢 能 机 器 时 所 起 的 
作用 。 

本 书 的 组 织 在 神经 网 络 研 究 生 谋 程 的 使 用 上 给 予 了 很 大 灵活 性 ， 教 师 可 根据 需要 灵活 选 
择 讲 谋 内 容 。 全 书 中 总 共 包 后 15 个 基于 计算 机 的 实验 ， 其 中 有 13 个 实验 需 使 用 MATLAB。 
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MATLAB 实验 的 文件 可 直接 从 以 下 网 站 下 载 : 

人 

http://www . mathworks. com/books/ 

每 章 后 都 附 有 习题 。 许多 习题 具有 挑战 性 ， 不 仅 能 检查 本 书 的 使 用 首 对 本 书 所 包谷 的 资 
料 擎 握 的 程度 ， 而 且 扩 芭 了 这 些 资 料 。 

工程 师 、 计 算 机 科学 家 和 物理 学 家 也 会 从 本 书 获 益 。 和 希望 本 书 对 其 他 学 科 ， 如 心理 学 秋 
神经 科学 的 研究 人 员 ， 也 会 有 所 帮助 。 


simon Havkin 


T Hamilton, Ontario 
1998 年 2 月 
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DEKE 
DFA 


EKF 


SANS 


artificial intelligence ATH BE 
adaptive principal components extraction “日 适应 主 分 旺 分 析 
autoregressive H [HIF 


back propagation through Lime 通过 时 间 的 反 辐 传播 
Boltzmann machine Boltzmann #1 

back propagation iz. [5] te AE 

hits per second 每 秒 比 特 率 

bounded, one-sided saturation GĦ}, PIRAN 
brain-state-in-a-box @& PABIARAS 

Blind source (signal) separation BWRPAS 


classification and regression tree 分 类 和 回归 树 
correlation matrix memory HKE REIZ 
cross-validation AE X WRTA 


decoupled extended Kalman filter mH E Kalman EVE SS 
deterministic finite-state automata 确定 性 有 限 状 态 目 动机 
digital signal processor Wia rA 


extended Kalman filter 扩展 Kalman 滤波 前 
expectation-maximization ”期望 最 大 化 


finite-duration impulse response 有限 时间 冲击 啊 应 
frequency-modulated (signal) 频率 调制 (信和 号 ) 


global extended Kalman filter 全 局 扩展 Kalman 滤波 器 
generalized cross-validation J 36% HA 

generalized Hebbian algorithm | X. Hebb 算法 
generalized sidelobe canceler | XO; HR TARR BS 


hierarchical mixture of expert RaRa 22 
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HMM 
Hz 


ICA 


Infornax 


KR 


hidden Markov model fa Markoy Pa] 
hertz Åh 


independent component analysis $E aE AAT 


maximum mutual information 最 太 冬 信息 
kernel regression t2 [FJ 


least-mean-square ”最 小 均 方 

likelihood ratio {IŻ EE 

long-term potentiation 长 期 电位 (LPT) 
lone-term depression 长 期 坦诚 
likelihood ratio {MALE 


learning vector quantization “J [el ar EAE 


minor component analysis Yat Ear 

minimum description length 最 小 描述 长 度 

mixture of expert Roe eK 

mean-field theory Fige 

multiple input-multiple output ”多 输入 多 输出 
maximum likelihood 最 大 似 然 

multilayer perceptron ER AlAs 

model reference adaptive contol ”模型 参考 自 迁 应 控制 


nonlinear autoregressive moving average JEZE EA BUA Spey 

nonlinear autoregressive with exogenous input -RA babe A BEZK E 8 EA 
neuron-dynamic programming ”神经 动态 规划 

Nadaraya-Watson (estimator) Nadaraya-Watson({4 tT #8 > 

Nadaraya- Watson kemel regression Nadaraya-Watson ¥% e] 5 


optimal brain damage Fe VLAN 

optimal brain surgeon 最 优 脑 外 科 

optical character recognition JESESEAFULRT 
ordinary differential equation ”党 微分 方程 


probably approximately correct 可 能 近似 正确 
principal component analysis =E 4} 47-37 
probability density function 13% 3 BF ph Bx 
probability mass function W Di E pay 
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RBF radial hasis function 4% [m] Fé ek BX 

RMI.P recurrent multilayer perceptron IBA eR Aas 

RTRL real-time recurrent leaming 实时 递归 学 习 

SIMO single input-multiple output 4 A Sl 

SISO single input-single output 单 输 和 音 输 出 

SNR signal-to-noise ratio fa HE 

SOM self-organizing map ZA 24 BRAY 

SRN simple recurrent network( also referred to as Elman’s recurrent network) — fa) 42.18/44 
t GLERA Elman 递归 网 络 ) 

SVD singular value decomposition af Sr {Har fF 

SVM support vector machine Fle) St t 

TDNN time-delay neural network ”时 延 神经 网 络 

TLFN time lagged feedforward network HB) ii Ja By Pt 

VC Vapnik-Chervononkis (dimension) | Vapnik-Chervononkis( 423% ) 

VISI very-large-scale integration 超大 规模 集成 

XOR exclusive OR ” 异 或 

重要 的 符号 

a action ”动作 

ab inner product of vectors a and b jal afl b AA 

ab’ output product of vectors a and b JE a Ai b HHR 

| binomial coefficient ”二 项 式 系 数 

m 

AUB unions of A and B A FB 的 并 

B inverse of temperature WAJE A) 

b, bias applied to neuron 上 ”神经 元 上 有 WIA E. 

cos(a, b) cosine of the angle between vectors a and b HE atl b EARR 

D depth of memory ICIL E 

Da Kullback-Leibler divergence between probability density functions f and g ABE ata toes IF pH 
数 上 和 g 之 间 的 Kullback-Leibler HE 

D adjoint of operator D F D 的 伴随 

E energy function fE E PRX 

E, energy of state i in statistical mechanics 统计 力学 中 状态 i 的 能 量 

E statistical expectation operator 统计 期 望 算 子 
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P(el'G) 


average energy “平均 能 量 

error function R2 A 

complimentary error function iR PRIA #p 

exponential ”指数 

average squared error or sum of squared error FEE ARE AO AIRE A 
instantaneous value of the sum of squared error “FATTER SE AY AT 

total sum of error squares AY ATR ZH 

free energy 4 FH AE & 

probability density function of random vector X PEHLA X AYER SE er 

subset (network) with the smallest minimum empirical risk 2850 XU -Re/ (Hae) BY 
于 集 ( 网 络 ) 

Hessian matrix Hessian FEY 

inverse of matrix H EPF H 的 逆 

square root of — 1, alsa denoted by j; -1 的 平方 模 ， 亦 记 作 i 

identity matrix ”单位 矩阵 

Fisher’s information matrix Fisher fA EASE 

mean-square error 平均 平方 误差 

Jacobian matrix Jacobi #6 BF 

error covariance matrix in Kalman filter theory Kalman 滤波 理论 中 的 误差 协 方差 年 
m 

square root of matrix K fH K 的 平方 根 

transpose of square root of matna K E K BGR AHA E 

Boltzmann constant Boltzmann 常数 

logarithm 对 小 

log-likelihood function of weight vector w 权 值 向 量 w 的 对 数 似 然 聘 数 
log-likelihood function of weight vector w based on a single example FFAS IAN (A [El 
量 w 的 对 数 似 然 函 数 

controllability matrix BIFE PF 

observability matrix 可 观察 性 第 阵 

discrete time AHHH] 

probability of state i in statistical mechanics 统计 力学 中 状态 i 的 概率 

transition probability from state i to stale fF 从 状态 工 记 状态 7 的 转移 概 府 
stochastic matrix Bil LB 

probability of correct classification IL WR 47 2E AE 

probability of error RAWE 

conditional probability of error e given that the input is drawn from class € M ZE% Pag 
人 时 误差 e 的 条 件 概 率 


probability that the visible neurons of a Boltzmann machine are in state a, given that the 


ww ai bbt.com TAAWAOAA 





Pj, kin) 


Fk sn) 


network is in its clamped condition(i.e. , positive phase) 假说 网 络 处 于 和 钳制 条 忻 5 即 
正 癌 阶段 ) 时 ，Boltmnann 机 的 可 见 神经 元 状态 为 a 的 概率 

probability that the visible neurons of a Boltzmann machine are in state a. given that the 
network is in its free-running condition(i.e..negalive phase) {AB Aigat A ds 
行 条 件 ( 即 负 疝 阶段 ) 时 ，Boltzmann 机 的 可 见 神 经 元 状态 为 a BEEE 

x(n x, nA 


estimate of autocorrelation function of x,t a) and x, Cn} 
RUA TT 

estimate of cross-correlation function of d(n} and x, (7) 
国 数 佑 计 

correlation matrix of an Input vecilor 输 A [a] St A E 
continuous time 726A} [A] 

temperature jin FE 


training set( sample) 


d(n) Fl x, Cn BUS 2 FASE 


训练 集 ( 梓 本 ) 

trace of a matrix operator MEA AJA 

方差 算 子 

Lyapunov function of state vector x JRM] at x HY Lyapunov 函数 

induced local field or activation potential of neuron 了 神经 元 i MHS Bp RIS 
fice 


optimum value of synaptic weight vector 


vanance operator 


突 触 术 值 向 量 的 最 优 值 

synaptic weight of synapse j belonging to neuron 上 属于 神经 元 此 AI Ay ASS AY 
值 

optimum weight vector {ETUE o E 

equilibrium value of state vector x JASE x HE eee 

average of state x, in a “thermal” sense “ 热 " 意 义 下 状态 x, 的 平均 

estimate of x , signified by the use of a caretthat) r HAT, BME S ne 
ESE 

absolute value( magnitude) of x x 的 绝对 从 (幅度 ) 
complex conjugate of x, signified by asterisk as superscript 
tr * 作 上 标 

Euclidean norm (length) of vector x bjia x AURAL Bea EE) 

transpose of vector X, signified by the superscnpt 7 PE x BUSES, H EER 了 表示 
unit delay operator 单位 延迟 算 子 

partition function Pay eR ŽE 

loal gradient of neuron 7 at time n HÆJ 7 ERZ a 的 局 部 梯度 

small change applied to weight w 权 值 如 的 微小 改变 

gradient operator PPle AT 

Laplacian operator Laplace 算 子 

gradient of J with respect to w JET w 的 梯度 


状态 x Ham, HE 
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XY 


V-F divergence of vector F ful & FAHRE 

7 leaming-rate parameter 77 -J 44 BBX 

K cumulant 24H gf 

j policy “策略 

0, threshold applied to neuron k(i.e., negative of bias 6,) PEZE k WUE (EHH E b, 
的 负 值 ) 

A regularization parameter 正则 化 参数 

Ay k th eigenvalue of a square matrix 方 阵 的 第 个 特征 值 

pkr) nonlinear activation function of neuron k #4000 k PATE Be EHO ASI 

€ symbol for “belong to” “属于 A 

U symbol for “union of “并 FES 

站 symbol for “intersection of” “E FF > 

* symbol for convolution “HPR FF 

+ superscript symbol for pseudoinverse of a matrix FH (ymin) ERIT E 

开 区 间 和 闭 区 间 


。 变量 x 的 开 区 间 (a,5 ) 表 示 a < x< b, 
* FE x 的 团 区 间 [ a,b axa be 
。 变量 x 的 半 闭 半 开 区 间 [a,8 Bak aasch; 类 似 地 ， 变 量 x 的 半 开 半 闭 区 间 { a ,8 ] 表 


不 区 b- 
mm A 


* 符号 ag min (Ww) E7 PX flwWAF2E7CIS Ww 的 最 小 值 。 
+ FTE arg max f( w) 22755 BBX fw) KR F4270F & w 的 最 大 伯 。 


ww ai bbt.com ODNDODODOD 





= 


出 战 者 的 话 

专家 指导 委员 会 

iE at IF 

Al E 

缩写 和 符号 

ee a EE i 
1.1 {pA Epia ce ee 了 
.3 4 
1.4 看 作 有 向 图 的 神经 网 络 rere eee 10 
1.5 kee 72 
ia PA GR ar T 13 
1.7 MRR rere eter ta te eee ra eenneernneannees 13 
1.8 A TBE BE PH RE pp 49 
1.9 EEE cecececcteecee eran eeeeece ee eeeee 44 
RAE ae a | Ce 3 
H Bilec te ee tcc e eects cece cece seen es eeeansssneeennnan nee 3G 

人 33 
2 简介 eee, 33 
二 24 
pe FEF TAUREN e 35 
2 4d Hebb sae dirham ew MRI ee ae ie 36 
2.5 A es errerereesenerenerertttuasanserreaan 30 
a | seen aemeene 40 
2 37 HIERE EE pe 4] 
2 8 GAMH ee 4? 
zo FATE esii 43 
310 ME SPARSE en 44 
ie eee 50 
2,12 HAJA 斩 
2.13 ”学习 过 程 的 统计 性 质 eee 57 
3 14 统计 学 习 理 论 ee 50 
2.15 ”可 能 近似 正确 的 党 习 模 型 69 
2.16 小结 和 讨论 eoetterrerrrrrrerirnerareereenas 7? 


可 i} 


SK 


第 3 童 EER i enseres s} 
3.1 简 谷 ns > 8] 
3.2 Å MR o ee ee >- W 
3.3 KJR IRAEE A trrrttrettetereerrrenens 83 
3.4 BHEO RIE ocene .Br 
3.5 最 小 均 方 算法 oeeeeecesesnseseas RG 
3.6 AHE -ererrrererresuresrrnnsarnsrrsrerss g2 
3.7 学 习 率 退火 进度 93 
ee 8 Eee eee Ot 
3.9 esl ed aes ee: rerrrresrriranrerrsrsreeaes of 
3.10 Gauss ik PASE Bayes 分 类 车 

Se a ee eee es og 
3.11 小 铺 和 讨论 eee i)? 
yE oe ol oe ae | oo-reetreserruannerrunuannessnne iz 
JA cee cence cece eect tere renee een e ease naanneeenas ids 

a ee a EEE HS 
4.1 PEJA pe eee ioe 
4.2 PIT cect cet eeene erence renee erneserenee FPF 
4.3 Fiz ter) FER Roe eee eet n teen ee re reees i? 
4.4 反 疝 传播 算法 小 缚 1 
4.5 异 或 问题 eee eer eee 133 
4.6 ABR EARP TERRAIRE A …… 125 
4.7 By Fes AR A I] «eee ee eee jog 
4.8 计算 机 实验 iti 
4.9 PEGE REM] -------rtrrtrrrrirareesnnnerresrres 140 
4.10 EER ss jd? 
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Bis F 


1.1 什么 是 神经 网 络 


自从 认识 人 人 脑 的 计算 与 传统 的 数字 计算 机 机 比 足 完全 不 同 的 方式 开始 ， 天 于 人 工 析 经 
网 络 { -- 般 称 为 “神经 网 络 ”) 的 研究 工作 就 开始 了 。 人 脑 是 一 个 高 度 复 条 的 、 非 线性 的 和 并 
行 的 计算 机 器 (信息 处 理 系 统 )、 人 脑 能 够 组 织 它 的 组 成 成 分 ， 即 神经 元 ， 以 比 今天 已 有 的 最 
快 的 计算 机 还 要 快 许多 倍 的 速度 进行 特定 的 计算 (加 模式 识别 、 感 刊 和 运动 神经 控制 )。 例 
如 ,考虑 人 类 视觉 这 是 -个 信息 处 理 的 任务 (Marr, 1982; Levine, 1985; Churchland and 
sejnowski,1992)。， 视 觉 系 统 功 能 是 为 我 们 提供 一 个 关于 周围 环境 的 表示 ， 并 且 更 重要 的 是 提 
供 我 们 和 环境 交互 所 需 的 信息 。 具 体 讲 ， 完 成 个 感知 识别 任务 (例如 识别 一 张 被 鹏 人 人 队 生 
场景 的 熟悉 的 脸 ) 人 脑 大 概 和 需要 100 ~ 200 上 毫秒， 而 一 友人 忧 统 的 计算 机 却 雪 花费 儿 天 时 间 才 能 
完成 一 个 相对 简单 得 多 的 任务 。 

再 举 一 个 例子 : SRAM PA, SARE Tas ee RS. Be T E H i 
(AU KTH RS ABM RS, CSO) Le ee AEE. HAR BERA 
同 特征 的 大 小 以 及 它 的 方位 角 和 仰角 的 信息 (Suga,1990a,b)。 所 有 信息 都 从 目 慰 的 回 店 中 提取 ， 
而 所 有 需 上 归 的 复杂 神经 计算 只 在 李子 般 大 小 的 脑 中 完 咸 。 事 笑 上 ， 一 只 回声 定位 的 如 日 可 以 灵 
巧 地 以 很 高 的 成 功率 过 逐 和 捕捉 日 妹 ， 这 一 点 可 以 证 雷达 或 声 纳 工程 师 们 站 到 和 弗 如 。 

那么 ， 人 脑 或 蝙蝠 的 脑 是 如 何 做 到 这 一 点 的 呢 ? 脑 一 出 生 就 有 精 己 的 梅 造 和 具有 通过 我 
们 通常 称 为 “经 验 " 而 建立 它 自己 规则 的 能 力 。 确 实 ， 经验 基 经 时 间 积 累 的 ， 人 人 脑 在 出 生 后 藉 
两 年 内 发 生 了 景 戏剧 忻 的 发 展 ( 即 厅 和 连接}， 但 是 发 展 将 超越 这 个 阶段 并 继续 进行 。 

一 个 “发 展 中 ”的 神经 元 是 与 可 朔 的 人 脑 同 头 的 。 可 净 性 多 许 一 个 发 展 中 的 神经 系统 适应 
它 的 周边 坏 境 。 可 塑性 似乎 是 人 脑 中 作为 信息 处 理 单元 的 神经 元 的 功能 的 关键 , 问 样 。 上 在 
大 工 神经 元 组 成 的 神经 网 络 中 亦 是 如 此 。 最 普通 形式 的 神经 网 阁 就 是 对 人 脑 完 成 特定 尾 务 或 
感 兴趣 功能 的 方法 进行 建 模 的 机 器 ; 网 络 一 般 用 电子 器 件 实现 或 者 用 软件 在 数字 计算 机 上 桩 
拟 ， 在 本 书 中 ， 我 们 主要 介绍 重要 的 神经 网 络 ， 这 种 网 络 通 过 学 习 过 程 来 实 项 有 用 的 计算 。 
为 了 获得 好 的 结果 ， 神 经 网 络 使 用 一 个 很 庞大 的 简单 计算 单元 加 的 由 互 连 接 ， 这 些 简 单 计算 单 
元 称 为 “神经 元 "或 者 "处理 单 元 "。 据 此 我 们 给 出 将 神经 网 络 看 作 一 种 自 适 应 机 器 的 定义 上 : 

一 个 神经 网 络 是 一 个 由 简单 处 理 元 构成 的 规模 宏大 的 并 行 分 布 式 处 理 器 :天然 具 有 存储 
经 验 知 识 和 性 之 可 用 的 特性 。 神 经 网 阁 在 两 个 方面 与 人 脑 相 似 ， 

1. 神经 网 络 获取 的 知识 是 从 外 界 环 境 中 学 习 得 来 的 。 

2 互 连 神 经 元 的 连接 强度 ， 即 突 触 权 情 ， 用 于 储存 装 取 的 知识 。 


用 于 完成 学 习 过 程 的 程序 称 为 学 习 算 法 ， 其 功能 是 以 有 序 的 方式 改变 网 络 的 突 触 权 值 以 
突 触 权 值 收 改 提供 神经 网 络 设 计 的 传统 方法 。 这 种 方法 种 线性 自 适 应 恋 波 磊 理 论 人 很 按 
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2 #1 


Ur. WRI ar Pie O RIRE He! r REE FF AR FA ER E tiibh ( Widrow and Stearns, 1985; Haykin, 


1996)。 但 是 神经 网 络 修改 七 自身 的 拓扑 结构 亦 是 可 能 的 ， 这 也 和 人 脑 的 神经 元 会 死亡 和 新 
HIR RETE Se AE TS OY Te OA i A 

昼 经 网 络 在 文献 中 也 称 为 神经 计 翰 机 、 连 接 主 义 网 络 、 并 行 分 布 式 处 理 器 等 。 本 -上 一律 
使 用 "神经 网 络 "这 个 术语 ， 偶 水 也 用 ”" 齐 经 计算 机 ?或 “连接 主义 网 络 ”。 


神经 网 络 的 优点 


神经 网 络 的 计算 能 力 很 明显 有 以 下 两 点 :《1t) 大 规模 并 行 分布 式 结 枸 。(21) 神 经 网 络 学 习 
肉 力 以 太 咎 此 向 来 的 汉化 能力 。 泛 化 是 指 神经 网 络 对 不 在 训练 (学 习 ) 集 中 的 数据 可 以 产生 合 
理 的 输出 。 这 两 种 信息 处 理 能 力 让 神经 网 络 可 以 解决 - 些 当 前 还 不 能 处 埋 的 复 森 的 ( 太 型 ) 问 
题 。 但 是 企 实 战 中 ， 神 经 网 络 不 能 单独 做 出 解答 ， 它 们 需要 被 丈 合 在 一 个 协调 : 致 的 系统 工 
程 方法 中 ,， 具 体 讲 ， 一 个 复杂 问题 往往 被 分 解 成 若 十 相对 简单 的 侍 务 ， 击 神经 网 络 处 理 与 其 
能 力 相 符 的 子 任务 。 但 是 ， 我 们 在 建立 一 个 可 以 模拟 人 脑 的 计算 机 结构 (如 果 可 能 ) 之 前 还 有 
很 长 路 要 走 ， 认 识 这 一 点 是 很 重要 的 ， 

神经 网 络 共 有 下 记性 质 和 能 力 : 

1, 非 线性 。 一 -个 人 二 神经 元 可 以 是 线性 或 者 足 非 线性 的 。 一 个 由 非 线 性 神经 元 互联 市 成 
的 者 经 网 络 自身 是 非 线 性 的 ， 并 且 非 线性 是 一 种 分 布 于 整个 阅 络 中 的 特殊 性 质 。 非 线性 是 一 个 
很 重要 的 性 质 ， 特 别 当 如 果 产 生 输 人 依 叶 (如 语音 信号 ) 上 内 部 的 物理 届 制 是 天 牛 非 线性 时 。 

2. 输入 输出 映射 。 有 监督 学习 或 有 教师 学 习 是 一 个 学 习 的 流行 范例 ， 涉 及 使 用 带 标 号 
的 训练 样本 或 任务 例子 对 神经 网 络 的 突 触 权 值 进行 修改 .每 个 样本 由 一 个 惟一 的 输入 信和 号 和 和 
相应 期 望 响 应 组 成 。 从 一 个 训练 集中 随机 选取 一 个 样本 给 网 络 ， 网 络 就 调整 它 的 突 触 权 值 ( 自 
由 参数 )， 以 最 小 化 期 涓 响应 和 由 输 和 人 信号 以 适当 的 统计 准则 产生 的 实际 响应 之 间 的 关 别 ,使 
用 训练 集中 的 很 多 例子 重复 神经 网 络 的 训练 ， 直 到 网 络 到 达 没 有 显著 的 突 触 权 值 收 正 的 稳定 状 
入 为 止 、 先 前 用 过 的 例子 可 能 还 时 在 训练 期 间 以 不 同 顺序 重复 使 用 。 因 此 对 当前 问题 网 络 通过 
建立 输入 输出 映射 从 例子 中 进行 学 习 。 这 样 一 个 方法 使 人 想起 了 无 参数 统计 推断 的 研究 ， 它 是 
非 和 模型 估计 的 统计 处 理 的 一 个 分 支 ， 或 者 从 生物 学 角度 看 ， 称 为 tabula rasa 学 习 (Ceman et al., 
1992)。 这 儿 合 用“ 非 参数 "表示 的 一 个 事实 是 , 没有 对 输入 数据 的 统计 模型 作 和 任何 先 验 假设 。 比 
如 ， 考 虚 一 个 宰 式 分 类 任务 ， 这 里 的 要 求 是 把 代表 具体 物体 或 事件 的 输 人 信和 号 分 类 到 几 个 预先 
分 好 的 类 中 去 。 在 这 个 问题 的 非 参 数 方 法 中 ， 要 求 利 用 例子 集 “ 佬 计 " 输 人 信和 号 空间 中 模式 分 类 
任务 的 任意 判决 边界 ， 并 且 不 使 用 概率 分 布 模 卉 。 有 坑 督 学 习 范例 隐 含 本 一 个 类 位 的 观点 ， 这 
提示 神经 网 络 的 输 人 输出 映射 和 非 参 数 统计 推断 之 间 的 一 个 由 近 的 类 比 ， 

3. 适应 性 ，。 神 经 网 络 般 人 了 一 个 调整 白 身 突 触 极 值 以 适应 外 界 变 化 的 能 力 。 特 别 是 ， 
一 个 在 特定 运行 环境 下 接受 训练 的 神经 网 络 ， 对 环境 条 件 不 大 的 变化 可 以 容易 进行 重新 训 
练 。 而 且 ， 当 它 在 一 个 时 变 环 境 { 即 它 的 统计 特性 随时 间 变 化 ) 中 运行 时 ， 网 络 突 触 权 值 就 可 
职 迹 计 咸 随时 间 变 化 。 用 于 模式 识别 、 依 号 处 理 和 控制 的 神经 网 络 与 它 的 自 适 应 能 力 耦 合 . 
束 可 以 这 成 能 进行 自 适应 模式 识别 、 自 适应 信号 处 理 和 自 适 应 控制 的 有 效 工具 。 作 为 一 个 一 
般 规 则 ， 在 保证 系统 保持 稳定 时 一 个 系统 的 自 适应 性 越 好 ， 当 鉴 求 在 一 个 时 变 环境 下 运行 时 
它 的 性 能 就 越 具 鲁 律 性 。 人 和 但是， 需要 强调 的 是 ， 自 适应 性 不 一 定 导 致 便 棱 性 ， 实际 可 能 相 
反 。 比 如 ,一 个 暂 态 自 适应 系统 可 能 变化 过 快 ， 以 至 对 寄生 干扰 有 上 反应 ， 这 将 引起 系统 性 能 
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的 鱼 剧 恶化 。 为 慑 大 限度 实现 自 适 应 性 ， 系 统 的 主要 时 间 常 数 应 该 长 到 可 以 忽略 寄生 干扰， 
而 短 到 可 以 反应 环境 的 重要 蛮 化 这 是 一 个 稳定 性 -可 站 性 困境 (Grossherpg,1988b). 

4, 证 据 响 应 。 在 模式 识别 的 问题 中 ， 神 经 网 络 可 以 设计 成 既 提 供 不 限 于 选择 哪 一 个 特 
ERARE, EIER RE E d EEE. EAT A R EH HAE h RAIE THR 
wo ARE, MAAE ER E H - 

5. PERE E, PREG R EAER ARE. Pe gS Ee 
PZ PATA Roce aoe, Au, Bafa BAe 

6. 容错 性 。 一 个 以 王 侍 形式 实现 后 的 神经 网 络 有 天 生 容 钳 的 潜质 ， 或 者 重 棒 计算 的 能 
刀 ， 尽 即 它 的 性 能 在 不 利 运 行 条 件 下 逐渐 下 距 。 比 刘 ， 一 个 神 公 元 或 它 的 连接 损坏 了 ， 存 储 
俐 式 的 回忆 在 质量 上 被 前 弱 。 但是， 由 于 网 络 信息 存 情 的 分 布 特性 ， 在 网 络 的 总 体 响应 严重 
严 化 之 前 这 种 损坏 是 分 散 的 。 因 此 ， 原 划 上 ,一 个 神经 网 络 的 性 能 显示 了 一 个 缓慢 恶化 而 不 
是 火 难 性 的 失败 。 有 一 些 关 于 和 鲁 棒 性 计算 的 经 验证 据 ， 但 通常 它 是 不 可 控 的 。 为 了 确保 网 络 
事实 上 的 容错 性 ， 有 必要 在 设计 训练 网 络 的 算法 时 采用 正确 的 度量 (Kertirzin and Vallet, 1993). 

7.VLSI 实现 。 神 经 网 络 的 大 规模 并 行 性 使 它 具 有 快速 处 理 某 些 任 务 的 潜在 能 力 。 这 一 
特性 使 得 恒 绎 网络 很 二 合用 超大 规模 集成 (very-large-scale_integrated, VLSID {ERAM VISI 的 
一 个 特 吻 优点 是 提供 一 个 以 高 度 分 屋 的 方式 捕 捍 真实 复杂 性 行为 的 方法 。 

8. 分 析 和 设计 的 一 至 性 。 基 本 上 ， 神 经 网 络 作 为 信息 处 理 器 具有 通用 性 。 我 们 这 样 说 
是 在 这 样 的 意义 下 ， 即 率 及 神经 网 络 的 应 用 的 所 有 领域 都 使 用 同样 记号 。 这 种 特征 以 不 同 的 
方式 表现 出 来 . 

* 神经 元 : 不 管 形式 如 何 ， 在 所 有 的 神经 网 络 中 都 代表 一 个 相同 成 分 。 

© 这 种 共性 使 得 在 不 同 应 用 中 的 神经 网 络 共 享 相同 的 理论 和 学 习 算 法 成 为 可 能 . 

。 模块 化 网 络 可 以 用 模块 的 无 继 集 成 来 实现 。 

9. 神经 生物 类 比 。 神 经 网 络 的 设计 是 由 对 人 脑 的 类 比 引 发 的 ， 人 脑 是 一 个 容错 的 并 行 
处 理 的 活 生 牛 的 鲍 子 ， 说 明 这 种 处 理 不 光 存 物理 上 可 实现 的 而 且 还 是 快速 高 效 的 。 神 经 生物 
学 家 将 (人 工 ) 神 经 网 络 看 作 是 一 个 解释 神经 生物 现象 的 研究 工具 。 另 一 方面 ,工程师 注意 神 
经 生物 学 是 将 其 作为 解决 复 厅 问题 的 新 轧 路， 这些 问 题 比 基于 常规 的 硬件 线路 设计 技术 所 能 
解决 的 问题 更 复杂 。 下 面 两 个 例子 说 明了 这 两 种 观点 : 

” 在 Anastasio(1993) 中 ， 比 较 了 前 庭 视觉 反射 的 线性 系统 模型 和 基于 在 1.6 节 描 述 及 第 

15 香里 详细 描述 的 递归 网 络 的 神经 网 络 模 型 。 前庭 视 觉 反射 (vestibulw-oeular reflex, 
VOHR) 古 眼球 运动 系统 的 一 部 分 ， 其 作用 是 让 眼球 向 与 头 转动 方向 相反 的 方向 运动 ， 
以 维持 视 党 (视网膜 ) 图 像 的 稳定 性 。VOR 由 前 庭 核酸 的 前 端 神经 元 调和 攻 ， 前 端 神 经 
元 从 击 庭 感知 圳 经 元 中 接受 头 部 旋转 信息 并 处 理 ， 将 结果 告知 眼球 肌肉 的 动作 神经 
元 。 斩 人 人 ( 沁 部 旋转 信息 ) 和 输出 (眼球 旋转 ) 可 以 精确 确定 ， 因 此 VOR 很 适合 用 来 建 
懂 。 另 外 ， 它 是 比较 简单 的 反射 作用 ， 并 且 其 组 成 神经 元 的 神经 生理 学 的 内 容 已 经 
被 很 好 阐述 。 在 三 种 神经 类 型 中 ， 前 端 神经 元 (反射 内 层 神 经 元 ) 在 前 庭 神 经 核酸 中 
是 最 复杂 也 是 最 引 人 注 意 的 。VYOR 以 前 已 经 用 集 块 线性 系统 描述 器 和 控制 理论 模型 
HOS. 这 些 模型 对 解释 VOR 的 整体 性 质 有 一 些 作 用 ， 但 是 对 其 组 成 神经 元 特性 的 了 
解 动用 处 不 大 。 这 种 情况 还 过 神经 网 络 的 模型 已 经 被 大 大 改善 了 。VOR 的 递归 网 络 
模型 (使 用 第 15 章 描 述 的 实时 递归 学 习 算 法 设计 ) 能 重 现 和 解释 调节 VOR 的 神经 元 
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BETETTE, LTA SABRE AS. oS. TEACHER AS) fest tere, Hee ERR 

Fé ffi 24 yt ( Anastasio, 1993) . 

© PAR AS] AN AR Ea ap, 是 我 们 开始 将 外 部 环境 的 物理 图 像 投 射 到 一 行 
接受 研 上 形成 的 视觉 表示 利 第 一 个 神经 图 像 结 合 的 地 方 。 它 是 眼球 后 部 的 神经 组 织 
溥 层 ， 其 功能 是 将 光学 图 像 转换 成 神经 图 像 并 沿 光 神 经 传输 给 大 量 的 视觉 中 枢 以 便 
进一步 外 理 。 这 是 一 个 复杂 的 工作 ， 可 以 从 视网膜 的 突 触 组 织 得 到 证 明 。 在 疹 桩 动 
物 的 视网膜 中 ， 光 图 像 转 化 成 神经 图 像 的 过 程 由 三 个 阶段 组 成 (Sterling, 1990) - 
(党 体 神经 元 屋 的 图 像 传导 。 
(后 i 革 信号 (对 光 刺 激 的 反应 产生 ) 由 化 学 性 突 触 传输 给 一 层 双 极 细胞 。 
4ii 同 样 ， 由 化 学 性 突 触 把 结果 信号 传 给 称 为 神经 节 细 胞 的 输出 神经 元 。 
任 两 个 究 触 阶段 ( 邑 从 受 体 到 冯 极 细胞 和 从 双 棋 细胞 到 神经 节 细 胞 )， 有 专门 侧 向 连 
接 的 分 别称 为 水 平 细胞 的 神经 元 和 无 长 突 细 胞 的 神经 元 。 这 些 神经 元 的 工作 是 修改 
突 触 层 之 闫 的 传输 。 另 外 有 被 叫做 中 间 网 状 细胞 的 离心 元 素 ， 它们 的 工作 是 将 信和 号 
从 内 部 突 触 层 伟 到 外 部 突 和 触 层 ,一 些 研 究 人 员 已 经 建立 了 模拟 视网膜 结构 的 电子 小 
Fr (Mahowald and Mead, 1989: Boahen and Ardreou, 1992; Boahen, 1996), ix tE H Toh FRR 
为 神经 形态 集成 电路 ， 这 个 术语 由 Mead{1989) 所 创造 。- -个 神经 形态 的 图 像 传 感 器 
由 一 排 感光 绥 与 每 个 图 形 元 素 ( 像 索 ) 的 模拟 回路 结合 而 成 。 它 能 模 所 视网膜 适应 局 
名 的 完 度 变化 、 和 检测 边缘 和 检测 运动 。 神 经 生物 学 模拟 ， 例 如 神经 形态 集成 电路 ， 
有 为 一 个 重要 的 应 用 : 它 提 供 一 种 希望 和 信念， 并 在 一 定 称 度 上 提供 一 种 存在 性 证 
明 ， 即 对 神经 生物 结构 的 物理 上 的 了 解 对 电子 学 工艺 和 超大 规模 集成 电路 技术 有 多 
方面 的 影响 。 

有 了 神经 牛 物 学 的 语 示 ， 我 们 对 人 人 脑 及 其 组 织 的 结 爸 层次 作 简 要 的 考察 看 来 是 合适 的 。 


1.2 人 脑 


人 的 神经 系统 可 看 作 3 阶段 系统 ， 如 同 图 1-1 所 描绘 的 框图 。 系 统 的 中 央 是 人 脑 ， 由 神 
经 网 络 表示 ， 瑟 连续 地 接收 信息 ， 感 知 它 并 做 出 适当 的 次 定 。 图 中 有 两 组 箭头 ， 从 左 到 右 的 
咎 头 表示 携带 信息 的 信和 叶 通 过 系统 向 前 传输 ， 从 而 到 左 的 箭头 表示 系统 中 的 反馈 。 感 受 器 把 
人 体 或 外 界 环境 的 刺激 转换 成 电 冲 击 ， 对 神经 网 络 ( 大 脑 ) 传 送信 息 。 神 经 网 络 的 效应 器 转换 
昼 经 网 络 产生 的 电 冲 击 为 可 识别 的 响应 作为 系统 输出 。 

由 于 Ramoény Cajal(1911) 的 开创 性 工作 (他 引 人 神 经 元 作为 人 脑 结构 成 分 的 思想 }， 理 解 
人 脑 的 努力 已 经 简单 多 了 。 通 常 ， 神 经 元 比 硅 邮 辑 门 要 慢 5 到 6 个 数量 级 ; 硅 逻 辑 门 中 的 事 
件 发 生 在 纳 秒 (10"”s}) 级 ， 而 在 神经 中 的 备件 发 生 在 毫秒 (10-，s} 级 。 但 是 人 脑 由 运行 速度 相 
对 较 提 的 神经 元 构成 ， 神 经 元 (神经 细胞 ) 数 目 确 实 惊人 ， 而 且 它 们 之 间 具 有 大 量 的 末 联 。 估 
TAN RA KA 100 亿 神 经 元 和 大 约 6 亿 兆 罕 触 或 连接 (Shepherd and Koch ,1990)， 脑 中 的 网 


em are. FRE, MABE ee 
每 秒 每 个 操作 大 约 为 10 “焦耳 ， 而 今 刺激 感受 器 O | 神经 网 络 | | hey Fy BE 响应 
天 所 用 的 最 好 计算 机 的 相应 值 是 每 黎 得 


TEE AA 10°° 8:2 (Faggin, 1991), 


RAL TM 7c LA Efe 图 1-1 神经 系统 的 框图 表示 
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žo F 5 
MR RARER APG RER RRR, CIMT. BISA EK KB 
E, PRAA ce Se ER, PATER SR. ORES BRS S E ARR im AS) FB, 
(AS Ae SPER, Aa [Se eg (AS (Shepherd and Koch,1990)。 用 电学 术语 ， 这 
e Lh nan E E 

， 能 加 载 兴 碍 或 抑制 ， 人 不 同时 作用 在 接受 神经 元 。 

我 们 曾 提 到 过 ， 可 塑性 允许 发 展 神经 系统 以 适应 周边 环境 {Eggermont, 1990; Churchland 
and Sejnowski, 1992). 在 成 年 人 的 脑 中 ， 果 塑性 可 以 解释 两 个 机 能 ， 创 建 神经 元 间 的 新 连接 
和 修改 连接 。 抽 突 ( 即 传导 线路 ) 和 树 突 ( 即 接受 区 域 ) 组 成 两 种 细胞 长 纤维 ， 它 们 在 形态 上 互 
相 区 别 ; RES A ERASE, Be Aa, ERR, MOSER (SPREAD 
EA ABA). EA A A 9 TA SP (Freeman, 1975). Abr BDA TB A 
状 和 大 小 的 神经 元 。 图 12 蚌 一 种 锥 形 细胞 ， 它 在 脑 皮层 中 是 常见 的 。 和 其 他 许 包 神经 元 一 
de 锥 形 细胞 可 以 有 
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— Fi TREE SS fh SS ae, ET RL TI BY H PA HE . 

Ke SHS IE EA HER Fe a Bae, EAk, -ERJ S 
ee dea PE PETA A a FP A PE A), is A eS I HH 
元 间 使 用 动作 电位 通信 和 足 由 得 罕 的 物理 性 质 染 定 的 。 轴 帘 很 
RA, ATR PALE AR AA, ie arb ih FHS 
中 。 因 此 可 以 用 RC fea PR RR, FA“ RRA Re OR 
滞 来 描述 轴 突 中 的 信号 传播 。 对 传播 机 制 的 分 析 揭示 电压 在 
传输 中 随 趾 离 指 数 误 减 ， 在 到 达 六 一 端 时 会 变 得 很 小 。 动 作 
电位 提供 了 元 服 这 个 问题 的 方法 CAnderson,1995)。 

在 人 脑 中 ， 有 大 小 解剖 组 织 之 分 ， 忆 能 也 有 高 下 之 别 。 

图 1-3 显示 脑 组 织 交 织 水 平 的 层次 结构 ， 这 已 经 章 广 泛 的 关 
THA Ja pp X H A a Or L PE F E A h E (Shepherd and Koch, 

1990; Churchland and Sejnowski, 1992), 2 Ak AUR Be EE AK HY j 
次 ， 其 活动 依 束 于 分 了 和 离子 。 其 后 的 层次 有 神经 微 电 有 路 、 

树 突 树 和 最 后 的 神经 元 ,， 神 经 微 电 路 指 突 甬 集成 ， 组 织 成 可 
以 产生 感 兴 趣 的 功能 操作 的 连接 模式 。 它 就 像 一 个 由 员 体 管 

集成 的 硅 片 ， 最 小 的 尺寸 用 微米 (pm) 庶 量 ， 最 快 的 操作 述 度 
用 毫秒 度量 ， 神 经 徽 电路 被 组 织 成 属于 神经 元 个 体 的 衬 突 树 

的 衬 突 子 单元 。 整 个 神经 元 大 约 为 100wm KA, MAIL AA 

突 子 单元 。 局 部 电路 { 太 约 Imm 大 小 ) 处 在 其 次 的 复杂 性 水 
平 ， 册 具有 相 似 或 不 同性 质 的 神经 元 组 成 ， 这 些 神 经 元 集成 ” 图 1.3 脑 组 织 的 分 层 结 杨 
完成 脑 局 部 区 域 的 特征 操作。 再 次 为 区 域 间 电路 ,由 通路 、 

柱 手 和 局 部 解剖 图 组 成 ， 牵 水 脑 中 不 同 部 分 的 多 个 区 域 . 

Ay op -H FE el ei Aa. EMA RR ROR, Se Eb P 
Ha Palen, EAA EREK ERRERA AAE., Eisa a P 
层 的 下 面 或 上 面 。 图 1-4 表示 出 Brodmann( Brodal, 1981) h AAI R m AEE CA 
枇 表 明 不 同 的 友 沉 伟 息 (和 运动 、 触 党、 视觉 、 上 听觉 等 ?被 有 序 地 瞎 届 到 大 脑 皮 层 的 相应 位 置 。 
在 复习 性 的 最 后 一 级 ， 局 部 解剖 图 和 其 他 的 区 咸 癌 电路 成 为 中 天神 经 系统 传递 特定 行为 的 媒 
ST 

RFE HE ee He a or eR eR AR a PSE BE. PATER RALPH 
RET, FLA TH Re ea eee. (AE, REE eE 1-3 PR 
的 类 伺 的 分 级 计算 的 层 状 结构 缓慢 推进 。 用 以 构造 的 神经 网 络 的 人 工 神 经 元 和 大脑 中 的 神经 
元 相 比 确立 比较 初级 我 们 日 前 能 设计 的 网 络 和 人 和 脑 中 初级 的 局 部 电路 和 区 域 癌 电路 相当 。 
但 是 ， 真 正 令 人 满意 的 是 过 去 20 年 间 我 们 在 许多 前 沿 有 了 显著 进步 。 以 神经 生物 类 比 作为 
灵感 的 源泉 ， 加 上 我 们 具有 的 理论 和 技术 工具 的 这 些 财富 ， 下 一 个 上 年 我 们 对 人 工 网 络 的 理 
Re — hE oe ATA 

Ax 5 AE OBER FF OS AEA OA, ERTS A OA CR 
OSE HEP], FAS AY fet A HE A BE iO HH SS RE 
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Asin] Oa eT TED ey E A R A BB a as, -E R a E ee a i F 
ial, sik, Kaka: 前 运动 区 ， 区 域 6， 前 端 眼 妹 区 ， 区 域 8 人体 触觉 
皮质 : 区 域 3，1，2， 视 觉 度 质 ; Ei 17, 18, 19, ITER, Ke, aCe 
A. Bwdal, 1981; 经 Oxford University Press 人 允许) 

图 1-4 大脑 皮质 细胞 竺 构图 


1.3 神经 元 模型 


神经 元 是 神经 网 络 操作 的 基本 信息 处 理 单 位 。 方 框图 1-5 显示 神经 元 的 模型 ， 它 是 (人 
工 ) 神 经 网 络 的 设计 基础 。 我 们 在 这 里 给 出 神经 抱 模 型 的 二 种 基本 元 素 ， 

1, 突 触 或 连接 链 ， 答 -个 都 由 其 权 值 或 者 强度 作 次 特征 。 特 别 是 ， 在 连 到 神经 元 上 的 
窒 触 了 上 的 输入 信号 x WRL k RAE wyo TERARI wi 的 下 标的 写法 很 重要 。 第 
一 个 下 标 指 查 何 神经 话 ， 第 二 个 下 标 指 权 值 所 在 的 突 触 的 输入 端 。 和 人 脑 中 的 突 般 不 一 样 ， 
人 十 神 经 元 的 突 触 权 值 有 一 个 范围 ， 可 以 取 正 值 也 可 以 取 贫 值 。 

2. 加 法 器 。 用 于 求 输入 信号 被 神经 元 的 相应 突 甬 加 权 的 和 。 这 个 操作 构成 一 个 线性 组 
eS 

3, Me Bak, ER HH oct oe 
ta. RRR A eek, EH 
输出 信号 压制 (限制 ) 到 允许 范围 之 内 的 一 
定 值 。 通 常 、 一 个 神经 元 输出 的 正常 幅度 gy 
范围 可 与 成 单位 闭 芝 间 .0,1] 或 者 男 一 种 ORS 
区 上司 [ -1, +1]. 

图 1-5 的 神经 元 模型 也 包括 - -个 外 部 
偏 置 ， 记 为 品 。 偏 置 的 作用 是 根据 共 为 正 
或 为 负 ， 相 应 地 增加 或 降低 激活 函数 的 网 
络 输入 。 





图 1-5 神 既 元 的 非 线性 模型 
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8 RLF 


= 
Ye = Glu, + by) (1.2) 


EP x,a ERMA SS. Wps We > We Ak SR, u RAT 
的 线性 组 合 器 的 输出 , 偏 置 为 b ,激活 函数 为 gf Ly, BHA aS oi BO, P 
作用 是 对 图 1-5 模型 中 的 线性 组 合 器 的 输出 u 
frig HER, UR PA: 

uy = uw + b (1.3) 
特别 地 ， REME b, 取 正 或 取 负 ， 神 经 元 上 的 
请 和 寻 局 部 域 或 激活 电位 vw 和 线性 组 合 絮 输出 uz, 
的 关系 如 图 1-6 所 示 ; 以 后 我 们 将 使 用 “诱导 局 
部 域 这 个 术语 。 注 意 到 由 于 这 个 仿 射 变换 的 作 
Al. n 5u 的 图 形 不 再 经 过 有 原 反 。 

偏 置 bh 是 人 工 神 经 元 上 的 外 部 参数 ， 我 们 

可 以 像 企 方程 (1.2) 中 一 样 考 虑 它 。 同 样 ， 我 们 
可以 结合 方程 (1.1) 和 (1.3) 得 到 如 下 公式 : 

ae (1.4) 图 1-6 偏 置 产生 的 仿 射 变换 






诱导 局 部 域 0 Eb, >0 
b, = 0 


e 





bh, < 





线性 组 全 器 输出 心 






(注意 wu, OW n, = b,) 
Ye = of, ) (1.5) 

01.4), RD L— Sr 3 fie, wo = >, AEE) 
one ae 

Ky = + I (1.6) 
RHEE 

Wa = b, n 
RAAB T eT k 的 新 模型 图 WA = 


l-7. ERTE F, MENIER En 
件 事 : (1) 添 加 新 的 固定 输入 + 1; (2) 
淋 加 新 的 等 于 偏 置 b, WR B : 
然 形 式 上 图 1-5 和 图 1-7 的 模型 不 相 SALE ( 包括 偏 置 ) 

同 ， 人 和 伍 在 数学 上 它们 是 等 价 的 。 图 1 了 神经 元 的 另 一 个 非 线性 模 理 


Ti EH Fe A Se 


Gen. ICA ptv)， 通 过 请 导 局 部 城 wv EMO KERMA Se 

Mie pea: 
1. BR Ba, OPS PARMA 1-8a fe, VARA: 
a | F0 


0 Mre 1.8) 
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其 输出 可 表示 为 
1 MEn = 0 
Yi = | kg (1.9) 
0 mE Pe = 0 
其 中 n BAAS oe R ee abi, HI 1.2 
7 l 
no = >) wee, tb (1.10) 0.8 
这 样 一 个 神经 苑 存 文 献 中 称 为 MeCulloch- 
Pitts # Æ, VA #4 a& McCulloch and Pitts 0.2 
(1943) 的 开 世 性 工作 ， FER MP, aa 0 
-2 -15 -] 5 0 905 ] 15 2 


SSC Tankid TH, WA L 6 
则 为 0。 这 描述 了 McCulloch-Pitts E (4) BF a) 
AB BY BS Al all-or-none } A) FEFE, 

2. PRAM BR. RA ae YY 
图 1-8b 所 示 ， 我 们 有 


l iis es 
9 mir 9 

wl) = YY, + >> -本 {1.11) 
0, "二 -六 


其 中 ， 在 运算 的 线性 区 域内 放大 因子 置 为 
1。 这 种 形式 的 滞 活 耳 数 是 对 非 线 性 放大 
ae Lik, PPA Oe aT LA A PE E PR 
数 的 特例 : 
* 在 你 持 运 算 的 线性 区 域 不 超过 的 
情况 下 ， 就 成 为 线性 组 合 器 - 
*” MAREK MRAA FICK, 





那么 此 图 数 退 化 成 阅 值 通 数 。 
3.sigmoid $t, JE pay AY FG E S- . 
形 的 ， 在 构造 人 工 神经 网 络 中 是 最 常用 的 图 1-8 
激活 函数 。 它 是 严格 的 递增 函数 ， 在 线性 AREER DORR IRA 
和 非 线 性 行为 之 间 显 现 出 较 好 的 平衡 。 PRES a 的 sigmoid 西数 
它 的 一 个 例子 是 logistic HE | TEMG 
glu) = (1.12) 


] + expl — av) 
其 中 a 是 sigmoid HRMS BR, CORB a BO LA. OB 1-8c 所 示 。 实 际 
上 ,在 原点 的 冬 度 等 于 a/4 。 在 极限 情 议 上， 倾斜 参数 趋 于 无 穷 ，sigmoid 就 变 成 了 简单 的 
PE pa. BMA PRR ER AO BK 1， 而 sigmoid 的 值 域 是 0 到 1 的 连续 区 问 。 还 要 注意 到 
sigmoid HAEATA., DAERA DE., (P 4 章 所 描述 的 ， 可 微 性 是 神经 网 络 理论 的 
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一 个 重要 特征 。) 

在 人 1.8)，(1.1) 和 (1.12) 中 定 闵 的 激 富 罗 数 的 任 域 古 0 介 +1- BRT te RD hi EA 
值 域 是 - 1 到 +]， 这 种 情况 下 油 活 负数 是 关于 原点 及 对 称 的 ; EL, PR KR OEA TA 
ADR AY Gy ES, PR, TE PRI). 8) ES) 95 — A AE 


l, “ey > O 
gv) =4 6, WR» =0 (1.13) 
— 1, fist 2 < O 
i AS PRA signum 4k. A T A sigmoid PRAT, FRAT A fe A ee he E 
ola) = tanhtv) (1.14) 
UELLE, EILIF sigmoid ERIA E R AR (EL, Ea E A AA 4 ÆA A) 


神经 元 的 统计 模型 


图 1-7 的 神经 元 模型 是 确定 性 的 ， 它 的 输入 输出 行为 四 所 有 的 输入 精确 定 必 。 但 在 一 些 
昼 经 网 络 庙 用 中 ， 基 于 随机 神经 模型 的 分 析 更 符合 需 竖 。 几 一 些 解 析 处 理 方法 ，MeCulloch- 
Pitts 模型 的 激活 消 数 用 概率 分 布 来 实现 .特别 的 ， 一 个 神经 元 介 许 有 两 个 可 能 的 状态 值 +1 
或 -1。 一 个 神经 元 激发 ( 即 它 的 状态 开关 从 “ 闫 "到 * 开 ”) 是 随机 决定 的 ， 用 x 表示 神经 无 的 
状态 ，P(#) 表 示 激 发 的 概率 ， 其 中 sv ERTER. 我 们 可 以 设 定 

ma i IRE Pir) 
s LWE 1 - Piv) 

有 2 的 一 个 标准 选择 是 sigmoid A089 RAY Litle, 1974): 


PCy) = (1.15) 


1 + expl- 2/T) 
其 中 了 是 伪 温 度 ， 控 制 激发 中 的 哄 声 水 平 即 不 确定 性 。 但 是 ， PSA EY iA 
本 的 ， 尼 部 不 是 神经 网 络 的 物理 温度 ,认识 到 这 一 点 很 重要 ， 进 一 步 ， 正 如 所 说 明 的 一 样 ， 
FAM DOR 了 看 作 是 一 个 控制 表示 帘 触 噪音 的 效果 的 热 波 动 的 参数 。 注 意 当 了 息 于 
(1.15) 所 折 述 的 随机 神经 元 就 变 为 无 品 店 { 即 确定 性 }) 形 式 ， 也 就 是 MeCulloch-Pitts OH , 


1.4 有 作 有 疝 图 的 神经 网 络 


图 1-5 的 方 框图 或 图 1-7 的 方 框图 提供 了 构成 人 人工 神经 元 模型 各 个 要 素 的 功能 描述 。 我 
们 可 以 在 不 牺牲 模型 功能 细节 的 条 件 下 用 信号 流 图 来 简化 模型 外 观 。Mason(1953,1956 ) 开 发 
了 线性 网 络 的 一 套 信 号 流 图 ， 并 带 有 定义 好 的 虚 则 。 神 经 元 的 非 线性 限制 了 它们 在 神经 网 络 
中 的 应 用 范 阁 。 不 过 ， 信 号 流 图 在 描述 神经 网 络 信号 流 时 为 我 们 提供 了 简洁 的 方法 ， 我 们 在 

节 进 行 讨论 。 

信号 流 图 是 一 个 由 有 了 巾 连 接 ( 分 支 ) 的 互 连 节 点 组 成 的 网 络 。- -个 典型 的 节点 j 有 一 个 相 
WP fe x). PRA ERA TRS, PUA SR. CAA BR 
或 传递 系数 以 确定 节点 大 的 信和 与 y HORT AL E Se, 之 间 的 方式 。 图 形 中 各 部 分 的 信 
Sia 3 条 基本 规则. 

规则 1 信和 巡 促 仅 折 者 定 多 好 的 箭头 方 回 在 连接 上 流动 。 两 种 不 回 的 连接 呆 以 区 旭 开 来 ， 

*” RAE, ECMTTAA RA AM KARE. HSI 1-9 am, TARS y 
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il 


4 
| h 


HETE S x, FELL E RARE wp E. 

。 激活 连接 ， 它 的 行为 :一般 出 非 线性 输入 输出 关系 决定 ， 如 图 1-9b Pam, HP ole) 
为 非 线 性 激活 咽 数 。 

规则 2 Tie SS PEAY Aa Ss aa. 

这 个 规则 如 图 1-90 Bran ARS Ra AARTE IÉ. 

规则 3 TAS BET OP ER Me, ISR Se eI ES aE EE 

递 蚂 数 。 
如 图 1-9d 所 示 突 触 散 发 或 遍 出 的 情形 . 


四 $ mn Fi af w j í 
a ¥,=F, + Yı X, 
1 J a 
Wki PiE) j 
C) d) 





TO "i Ye = P) is | 


a} b) 
图 1-9 用 于 构造 全 号 流 图 的 基本 规则 图 示 


比如 ， 用 这 些 规则 ， 我 们 可 以 制作 对 应 于 Xy = +1 
图 1-7 的 信号 流 图 图 1-10。 可 以 看 出 ,图 1-10 
ICS I-7TRB Ae, ERS 了 后 者 
eM Avnet tT. HER, ACA, Hi 
A xo = +1 PUFA AAA wo = h Hh 
b, PRAT HNE, z 

H., WR 1-10 的 信号 流 图 为 神经 区 
模型 ， 我们 可 以 给 出 一 个 神经 网 络 的 下 列 数 学 
EN: 

EE se AS oy EL AY EAR A A į 
和 激活 连接 构成 的 有 向 图 ， 具 青 填 个 主要 特征: 图 1- i0 ”神经 元 的 信 寺 流 图 

1. 每 个 神经 元 可 表示 为 一 组 线性 的 突 触 连 
ik, “PEM CMe, MAPA, AE He- AH + 1 的 输入 
连接 的 突 触 连 接 表 示 。 

2, 神经 元 的 突 触 连接 给 它们 相应 的 输入 信号 加 权 . 

3. 输入 信号 的 加 权 和 和 构成 该 神经 元 的 诱导 局 部 域 ， 

4, 激 洁 和 连 抒 压制 神经 元 的 请 平局 部 域 产生 输出 。 


一 个 神经 元 的 状态 可 以 定 六 为 它 的 输出 信号 或 者 诱导 局 部 域 . 

一 个 如 此 定 光 的 有 向 图 是 完全 的 ， 这 是 指 它 不 仅仅 摘 述 了 神经 元 间 的 信和 叶 流 ， 也 描述 了 
每 个 昼 经 元 内 部 的 伟 号 流 。 但 是 当 我 们 的 注意 集中 在 神经 元 之 问 的 信号 流 上 时 ， 可 以 使用 这 
个 图 的 一 个 和 商 略 形 闷 ， 它 省 略 昼 经 元 内 部 的 信号 流 的 细节 ,， 这 样 的 有 向 图 是 局 部 完全 的 。 它 
的 特征 是 ， 

1. 源 节 点 向 图 提供 输入 信号。 


二 | 
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EG 


i2 Bis 





2. FP PRA IT — THAP ARD. 
3. RATA Pa DATS A eA. EVIE FA Si 





方向 。 
这 样 定 义 的 一 个 局 部 完全 的 有 向 图 就 是 所 谓 神经 网 络 tg= +1 
He, Te Zee a, FA 1-11 BAA m R x, 
5 SAS FP A a+ A Hh N 输出 
元 的 简单 人 情况。 注意 表示 该 神经 元 的 计算 节点 以 阴影 显 a 
Tm, MRD AACA RE. FAET, RPR E 
的 表示 方法 . Æ 1.6 节 有 更 精巧 的 布局 结构 图 的 例子 ， Tm 
总 的 来 说 ， 我 们 有 一 种 神经 网 络 的 图 形 表 示 方 法 : 1-11 神经 元 的 结构 图 
> 方 框图 ， 提 供 网 络 的 功能 描述 ， 
，。 信号 流 图 ， 提 供 网 络 中 完全 的 信号 流 描述 。 
。 结构 图 ， 描 述 网 络 布局 。 
1.5 反馈 
反馈 存在 于 动态 系统 ， 系 统一 个 元 素 的 输出 部 分 影响 作用 于 该 元 素 输 入 ， 因 此 造成 了 一 


个 或 多 个 册 统 系统 的 信号 传输 的 封闭 路 径 。 实 际 上 ， 反 馈 存 在 于 所 有 动物 的 神经 系统 的 几 平 
每 部 分 中 (Freeman,1975)}。 并 且 ， 在 一 类 特殊 的 神经 网 络 一 一 递归 网 络 的 研究 中 扮演 重要 


的 和 角色。 图 1- 12 表示 单 环 反馈 系统 的 信和 叶 流 图 ， 和 输入 信号 ui) A ve 
x(n) AAIE S x'(n) 和 输出 信号 y(n) 是 离散 时 间 变 量 n | \ j 
HRR. RTRA SPA ARAIRE ARA ATB A R 
7A RAPA, ASAE, RBI. A AA a 图 1-12 单 环 反馈 系统 
出 通过 反馈 通道 影响 自己 的 输出 -我 们 可 以 很 容易 得 到 图 1- 的 信号 流 图 
12 的 输入 输出 关系 : 
vin) = Al xin) | (1,16) 
sin) = x(n) + Bly (n)] (1.17) 
其 中 方 括号 是 为 了 强调 4 和 如 是 扮演 算 子 的 角色 。 在 (1.16)，(1.17) 中 消去 xv (n), 48 
Yn) = Ala (n)] (1.18) 


我 们 把 4A1 - AB RHARN ARE T, AR ATRE TS, —MUDK, HHRMA 
te, Bl AB + BA, 
flan, SA 1- 13 中 的 单 环 反 局 系统 。4 是 一 个 固定 的 权 值 w; 召 是 单位 延迟 算 子 
z“， 上 其 输出 是 输入 延迟 一 个 时 间 单 位 的 结果 。 我 们 可 以 将 这 个 系统 的 闭环 算 子 表示 为 
A wW 


x; (n) H 





Lue ea wtl— wz) —_ UF A 
用 (1 - az) 二 项 式 展 开 ， 可 以 把 系统 的 闭环 算 子 重 写 为 pei 
— = w Swe" (1.19) 图 1-13 一 阶 讯 限 冲 击 响 应 
“= COR i EB fs SoS 
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因此 ， 将 式 {.19) 代 大 式 1.18)， 我 们 有 


y,(n} = w Dy ws | al 


HER, BRR a a a] oc SP 特别 
的 ， 册 z” 的 定义 我 们 有 有 

z xn) SS ee (1.21) 
其 中 x(a- LEA Te SS REI i 个 时 间 单 位 的 样 
A. AME, RHA x, (a) 现在 的 和 过 去 的 有 所 有 
样本 的 加 权 和 来 表示 竹 出 y(n): 


ye(n) = Swi a(n - i) (1.22) 


我 们 现在 清楚 知道 系统 的 动态 行为 是 由 权 值 w TE 
制 的 。 特 别 是 ， 我 们 可 以 识别 两 种 特殊 情况 : 

1.1wl <1， 此 时 输出 信号 v Cn) PAGE are ee 
也 就 是 说 ， 系 统 稳定 ， 如 图 1- 14a 对 AE w 值 的 
情况 所 示 - 

2.121| 莹 1， 此 时 输出 信号 和 (aa 发散 ;也 就 是 
W, 系统 不 稳定 。 图 1-14b 是 1w| =1 的 情况 ， 发 散 
是 线性 的 ; 图 1-14c 是 1w1 > 1 Mi, RB 
数 的 。 

稳定 性 是 反馈 系统 研究 中 的 突出 特征 ， 

lel<1 的 情 沈 对 应 系统 具有 无 限 记忆 ， 这 示 
指 系统 的 输电 依赖 于 无 限 过 大 的 输入 样本 。 并 日 ， 











记忆 的 强度 是 随时 间 指数 衰减 的 。 
由 于 用 于 构造 神经 网 络 的 处 理 单元 通常 是 非 线 

性 的 ， 它 所 涉及 的 反馈 应 用 的 动态 行为 分 析 都 很 复 图 1-14 图 1-13 中 前 向 权重 w 的 

杂 。 这 一 点 在 本 书后 面部 分 给 出 进一步 分 析 。 三 种 不 同 值 的 时 间 响 应 


ae bP AR PRAT 
1.6 网 络 结构 


神经 网 络 中 神经 元 的 构 秆 方式 是 和 训练 网 络 的 学 习 算 法 紧密 连接 的 ， 因 上 此， 我们 可 以 
be, FIFRA Raed CAL eR. FR RRP Ee BAe, mM 
AR BRS PARADA ASE JAA. TX RT] SEF PB AR AA 

— FRU, BATH LAK ot PEA AST] AY PR APY o 


1. 单 层 前 镇 网 络 


he BM, ACU EAA, TERME, A, 
直接 授 射 到 神经 元 输出 层 { 计 算 节 上 点) 上去， 而 不 是 相反 。 也 就 是 讽 ， 这 个 网 络 是 产 格 的 无 圈 
的 或 前 馈 的 .如 图 1-15 所 示 ， 答 出 输入 层 各 有 4 个 节操 。 这 样 一 个 网 络 称 为 单 层 网 。 单 
层 " 指 的 是 计算 市 点 (神经 元 ) 输 出 层 , 我 们 不 把 源 节 吉 的 输入 层 计算 在 内 ,因为 在 这 一 层 没 
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EJ 


ka "下 


Ail. 
2. 多 层 前 馈 网 


By i 2S a — EP 2 4 — ek & Ge AS 
we, HMRI E T BRON A YS a ae 
Zo Bae PHA ITA Be E LA Seg HAI AIT AS 
部 输入 和 了 网络 输出 之 中 。 A d PRT Be 
层 ， 网 络 可 以 引出 贞 附 统计 特性 ， 即使 网 络 为 局 
部 连接 ， 由 于 额外 的 突 甬 连接 利 额外 的 神经 区 互 
作用 ， 可 以 使 网 络 在 不 堵 么 严格 意 关 下 狂 得 -个 
Tia A f (Churchland and Sejnowski, 1992). =% 
AFSAR APART He, BaB deR ee Bie RP HE R Be 
HARA UA 了， 图 1-15 SLE ay ek OB $F 24 28 

输入 层 的 源 节点 提供 激活 模式 的 元 素 (输入 § 
jest), ALAR hae Mee cre 
点 ) 的 输 人 信号。 第 二 层 的 输出 优 叶 作为 第 三 层 
输入 ， 这 样 一 二 传递 下 去 。 通常， 每 一 层 的 输入 
部 是 上 一 层 的 输出 ， 最 后 的 辅 出 层 给 出 相对 于 源 
广 忆 的 流 活 模式 的 网 络 输出 ;结构 图 如 图 1- 16 
所 沙 。 图 中 只 有 一 个 隐藏 层 以 简化 神经 网 络 的 布 
局 ,这 是 一 个 10-4-2 网 络 ， 共 中 有 to PY 
点 , 4 个 隐藏 神经 元 ,2 个 输出 神经 二 。 作 为 另 
外 一 个 例子 ， 具有 m 个 源 节点 的 前 馈 网 络 ， 第 
一 个 隐藏 屋 有 个 神经 元 ,第 二 个 隐藏 导 有 h 
TMZ IL, WOE A 9 PH Boe, ALLY 
m- hi- h, - g Ris. 





源 节点 输入 屋 神经 元 输出 晨 





源 节点 隐藏 神 输出 神 
图 1-16 的 网 络 也 可 以 称 之 为 完全 连接 网 络 ， 输入 层 经 元 屋 经 元 层 
| — — Fi a 二 F ’ | ™ 
aA Fe TSBs TE pha gn RAS A116 AA SABER 
是 这 梓 ， 我 们 称 之 为 部 分 连接 网 络 . Hy Anse $e re ht FP 


3. 6/5 


if a AA ie PS EKET EENS AAA a 1-17 Bs , a BE a 
以 是 这 梓 ， 单 层 网 络 的 每 一 个 昼 经 元 的 输出 都 反馈 到 所 有 其 化 神经 元 的 输入 中 去 。 这 个 赂 中 
me WA ARH; 自 反 馈 环 表示 神经 元 的 输出 扩 馈 到 它 自 己 的 输入 上 去 , 图 1-17 
也 没有 隐藏 层 - 图 1- 18 所 示 是 带 有 隐藏 神经 无 的 一 类 递归 网 络 ， 皮 馈 连 接 的 起 点 包括 隐藏 
层 神经 元 和 输出 神经 元 。 

Rh FRE, TEAR 1- 17 或 图 1-18 的 递归 结构 中 ， 对 网 络 的 学 习 能 力 和 和 它 的 性 能 
有 座 刻 的 影响 。 并 且 ， 由 于 反馈 坏 涉及 使 用 单元 延迟 元 素 ! 记 为 z) 构 成 的 特殊 分 支 ， 假如 
伸 经 网 络 包含 非 私 性 单元 ， 这 号 致 非 线 性 的 动态 行为 。 
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图 1]-17 讽 目 反 饮 环 和 随 蕊 神经 元 的 递归 网 络 图 1-18 有 隐藏 神经 元 的 递归 网 络 


1.7 知识 表示 


在 1.1 节 中 用 到 和 知识 这 个 术语 ， 我 们 用 它 来 定义 神经 网 络 的 时 候 没 有 对 它 的 沛 习作 
明 硝 的 表述 。 我 们 注意 到 这 一 点 ， 下 面 给 出 一 般 性 的 定义 {Fischler and Firschein, 1987 ); 


知识 就 是 人 或 机 器 储存 起 来 以 备 使 用 的 信息 或 模型 ， 用 来 对 外 部 世界 作出 解释 、 预 测 和 
适当 的 反应 。 


知识 表示 的 主要 特征 有 两 个 方面: (1) 什 么 信息 是 明确 表述 的 ，(2) 物 理 上 信息 是 如 何 被 
编码 和 使 用 的 。 按 知识 表示 的 本 性 ， 它 是 目标 导向 的 。 在 “智能 "机 器 的 现实 应 用 中 ， 可 以 说 
好 的 方案 取决 于 知识 的 好 的 表 式 ( Woods,1986)。 代 表 一 类 特殊 智能 机 器 的 神经 网 络 也 是 如 
此 。 但 足 ， 典 型 地 从 输 人 到 内 部 网 络 参数 的 可 能 表现 形式 是 高 度 多 样 性 的 ， 这 导致 基于 神经 
网 络 的 满意 解 的 求解 成 为 一 个 挑战 性 的 设计 。 

神经 网 络 的 一 个 主要 任务 是 学 习 它 依存 的 外 部 世界 (环境 ) 的 一 个 模型 ， 并 且 保持 该 模型 
和 真实 世界 足够 相 容 ， 这 样 得 到 感 兴趣 的 应 用 的 特定 目标 。 有 关 世 界 的 知识 由 两 类 信息 组 
成 。 

L 已 知 世 界 的 状态 ， 由 什么 事实 和 已 知道 什么 事实 所 表示 ; 这 种 形式 的 知识 被 称 为 光 
验 信息 。 

2. 对 世界 的 观察 (测量 )， 由 设计 的 探测 神经 网 络 所 在 的 运行 环境 的 传感器 获得 。 一 般 
说 来 ， 这 些 观察 是 带 有 噪声 的 ， 由 于 传感器 的 噪声 和 系统 的 不 完善 而 产生 误差 。 不 管 怎 样 ， 
这 样 得 到 的 观察 是 用 来 训练 神经 网 络 例子 的 信息 池 。 

例子 可 以 是 有 标记 的 ， 也 可 以 是 无 标记 的 。 例 子 有 标记 时 ， 每 个 例子 的 输入 信号 有 相应 
的 与 之 配对 的 期 望 响应 。 另 一 方面 ， 无 标记 的 例子 包括 输入 信号 自身 的 不 同 实现 。 不 管 怎 
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样 ， 一 绀 例子 ， 无 论 有 标号 或 无 标号 ， 代 表 了 神经 网 络 通 过 训练 可 以 学 习 的 环境 知识 。 
-组 出 输入 信 叶 和 相应 的 期 望 响 应 组 成 的 输入 输出 对 称 为 训练 数据 集 或 训练 祥 本 。 为 了 
说 明和 怎样 使 用 这 梓 的 数据 集 ， 例 如 考虑 手写 数字 识别 问题 。 这 个 问题 由， 和 输入 信号 是 - : 幅 思 
日 图 像 ， 每 幅 图 像 代表 从 背景 中 明显 分 离 的 十 个 数字 之 一 。 期 望 的 响应 就 是 “确定 ”网 络 的 输 
Maite SE. RUA REFS ARS HARE, RRR SRA 
形 。 有 了 这 些 样 本 ， 可 以 如 下 度 计 网 络 ， 
” 第 一 ， 选 择 一 个 合适 的 结构 ， 输 入 层 的 源 节 点 数 和 输 人 图像 的 像素 数 一 样 ， 而 输出 
REL 10 个 神经 元 (每 个 数字 对 应 一 个 神经 元 ), 利用 合适 的 算法 ， 以 样本 的 一 -个 子 
集训 练 网 络 。 这 个 医 计 阶段 叫 学 习 。 
* 第 二 ， 用 防 生 样本 检验 已 训练 网 络 的 识别 性 能 。 特 别 ， 呈 现 给 网 络 一 幅 输 入 图 像 ， 
KO AEA Ex RRP RT. RR BOE GER HG SK Bl 
ABS RES Bs PAS Bll Oe SOR ie, PURIST PA eit, ee 
理学 的 术语 。 
这 里 昼 经 网 络 设计 与 它 的 传统 信息 处 理 对 应 部 分 (模式 分 类 器 ) 有 着 根本 的 六 别 。 在 后 一 
种 情况 ， 首 先 我 们 通常 设计 一 个 环境 观察 的 数学 模型 ， 利 用 真实 数据 验证 这 个 模型 ， 青 以 此 
息 型 为 基础 建立 设计 ， 相 反 ， 神 经 网 络 的 设计 直接 基于 实际 数据 ， 让 救 握 自己 说 话 。 因 此 神 
经 网 络 提供 了 内 散 于 环境 的 隐 仿 模型， 但 是 也 实现 了 感 兴趣 的 信息 处 理 功 能 ， 
用 于 训练 神经 网 络 的 例子 可 以 由 正 例 和 反例 组 成 。 比 如 ， 在 被 动 声 纳 探 测 间 题 上 上 ， 下 全 
措 包 括 感 兴趣 的 目标 (如 洪 艇 ) 的 输入 训练 数据 ， 在 被 动 声 纳 环境 ， 我 们 知道 测试 数据 中 海洋 
生物 的 可 能 出 现 经 常 造成 虚 警 。 为 了 缓解 这 个 问题 ， 把 反例 (如 海洋 生物 的 同 声 ) 和 包括 在 训练 
集 市 以 教会 网 络 不 要 瀑 清 海洋 生 和 狐 和 目标 。 

在 神经 阅 络 的 独特 结构 中 ， 周 围 环 境 的 知识 表示 由 网 络 的 自由 参数 ( 即 突 触 权 人 和 偏 晋 ) 
的 取 值 定义 ,这 种 知识 表示 的 形式 构成 神经 网 络 的 设计 本 身 ， 因 此 ， 也 是 网 络 性 能 的 关键 。 

信 工 网 络 中 的 知识 表示 是 很 复 淋 的 。 但 是 这 里 有 它 通用 的 4 条 规则 ( Anderson, 1988) . 

规则 1 相似 的 类 别 中 相似 输入 通常 应 产生 成 网 络 中 相似 的 表示 ， 因此， 可 以 时 人 同 -- 
AEP 

度量 输 人 相似 性 有 很 多 方法 。 常 用 的 相似 度量 是 利用 欧 几 里 德 查 离 。 作 为 特例 ， 今 区 
是 一 个 m x ] HTA ME, 

X, = x 7 xy | 
上 标 TROEAKRE. HE x, 就 是 m 维 空间 ( 称 为 欧 几 里 德 室 间 ) 的 一 个 点 ， 记 为 R", A 
个 m x 1 Inj x, ,x, ZER BRL Be BE 
d(x,,x,) = xx) = DPE ~ 4) | (1.23) 


$= 


HEP a 5 Xe TAEA Mel Bex, ,x 的 第 上 个 分 量 。 相 应 地 ， 由 向 量 x ,x 表示 的 两 个 输入 的 相 
似 性 就 定义 为 欧 几 里 德 距离 d(x, x, ) 的 倒数 。 输 入 向 量 x, Al x, BERGE, ULES d 
(xox ) 驱 越 小 ， 相 似 性 就 越 大 。 如 果 两 个 向 量 是 相似 的 ， 规 则 1 说 明 它们 归 入 同一 类 ， 

为 一 个 相似 性 度量 是 基于 点 各 或 内 积 ， 它 借用 和 矩阵 代数 。 雏 定 一 对 相同 维 数 的 向 量 x， 
xi ， 它 们 的 内 积 就 是 让 xX， 可 展开 如 下 ， 
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(XK) = X X; = ere (1.24) 
ARC, ,x ) 除 以 范 数 积 上 x |e ll x， 就 是 两 个 向 量 x, ,x SABA. 
这 虫 定 儿 的 两 种 相似 性 度量 有 密切 的 联系 ， 如 图 1-19 所 X, 
Fo WL PRTBS Ix, — x, [AHE x, 到 向 量 x 的 “投影 " 相 A 
关 。 图 1-19 清楚 地 表明 欧 几 里 德 距 离 | x. -x | 越 小 ， 向 量 ta 
x, 和 x, BH, AR y x, 越 大 。 
A THRAAAATE Ah? E, RHE — E 
x, i x, H-—ik, Bp x; X, 
Ix, = lx; = 1 图 1-19 FARA RITE 
利用 式 (1.23) 我 们 就 可 以 写成 为 模式 相似 性 度 攻 的 欧 
d (xex) = (x; — x,)"(x, —x,) = 2- 2x x (1.25) JLB BIE <I HRA 
等 式 (1.25) 表 明 最 小 化 的 欧 几 里 德 距离 d(x, ,x ) 就 对 应 最 大 化 的 内 积 (zx x ) 和 最 大 化 x, 和 
x, 的 相似 性 。 


这 里 的 欧 儿 里 德 邮 离 和 内 积 的 定义 部 是 用 确定 性 的 术语 定义 的 。 如 果 向 其 x; 和 x% 是 从 

小 同 数据 总 体 ( 池 ) 中 得 来 的 ， 又 该 起 样 定 闵 相似 性 呢 ? 作为 特例 ， 假 设 斋 个 总 体 的 差异 仅 在 
ETHER. $ p Ap 分 别 表示 向 量 x 和 x 的 均值 。 也 就 是 说 ， 

uw, = Elx, | (1.26) 

Hp E ERARA T. Hers p EE ATERRAR, RT 

Mahalanobis E ARAE, IN djo Mx, B) x, 的 这 种 距离 的 平方 值 定 义 为 (Duda and Hart, 1973 ): 


d; = (x, - BO) E' (x, - p, ) J27) 
其 中 EEP HEH AKEE., RI A AR ee, SEF 
S= Elx -p(x -p,)") = Bly -p(x - 7) (1.28) 


ze? =X;, P, =; =p 7 E= IRO AMEE), Mahalanobis 距离 变 为 样本 疝 量 X, 和 均值 辣 
E p Ja) RRL EB EP A, 

规则 2 PAA Ra oes AAS Pe ST A fa A RA REAR 

这 条 规则 与 规则 1 正 相反 。 

规则 3 如 永 革 个 特征 很 重要 ， 那 么 网 络 表 泵 这 个 向 量 将 处 太 大 量 神 经 元 。 

比如 ， 考 虚 雷 达 探 测 涉 及 在 向 乱 状态 ( 即 雷 达 从 不 期 望 的 目标 如 建筑 物 、 树 木 和 云层 的 
民 射 ) 下 的 且 标 (如 航空 夏 ) 的 应 用 。 这 样 的 雷达 系统 的 探测 性 能 由 下 面 两 种 概率 形式 来 衡 
量 ; l 
“RMF, Me Hm TERRAS Bhs. 
。 虚 警 概 举 ， 就 是 目标 不 存在 时 系统 判断 日 标 出 现 的 概率 。 
fic HA Neyman-Pearson 准则 ， 在 虚 警 概率 限制 在 一 定 范围 的 情 涡 下 ， 探 测 概 率 达 到 最 大 值 
(Van Trees,1968)。 往 这 种 应 用 中 ， 收 到 信号 中 目标 的 实际 出 现代 表 输 入 信号 中 的 重要 特征 。 
实际 上 ， 规 则 3 意味 首 在 自 实 目标 存在 的 时 候 应 该 有 大 量 神经 元 参与 判决 该 目标 出 现 。 按 同 
梓 近 理 ， 仪 当 敬 乱 状 态 实 际 存在 的 时 候 才 应 该 有 大 量 神经 元 参与 判决 该 散乱 状态 的 出 现 ， 在 
两 种 情形 下 ， 大 量 的 神经 元 保证 了 判决 的 高 度 准 确 性 和 对 错误 神经 元 的 容错 性 。 
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规则 4 Toa AA NEE ABT CE SEP, ER a fed eA 
计 。 

规则 4 特 列 重 要 ， 因 为 真正 坚持 这 一 规则 就 会 导致 网 络 具 有 特殊 的 (有 限制 的 ) 结 构 。 这 
一 名 是 我 们 开 击 要 的 ， 蛛 因 如 下 (Russo,1991) : 

L. 已 放生 物 视觉 和 听觉 网 络 是 非常 特别 的 。 

2. 相对 于 完 们 连接 网 络 ， 特 殊 网 络 用 于 调节 的 自由 参数 是 较 少 的 。 因 此 ， 特 殊 网 络 所 
re ADA, SRM Ba aE PE ESR 
3. 通过 特殊 网 络 的 信息 传输 速率 5( 印 网 络 的 通过 数据 ) 是 增加 的 。 
4. 种 企 连接 网 络 相 比特 殊 网 络 的 建 说 成 木 比 较 低 ， 因 为 规模 较 小 。 
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当然 ， 怎 样 在 神经 网 络 设计 中 建立 先 验 信息 ， 以 此 建立 一 种 特殊 的 网 络 结 枸 ， 这 是 必须 
考 翅 的 重要 的 问题 。 不 幸 的 是 ， 现 在 还 没有 一 种 有 效 的 规则 来 使 用 先 验 售 息 提 高 网 络 性 能 ; 
我 们 只 有 某 些 特别 的 过 程 ， 已 知 可 以 产生 一 些 有 用 的 结果 。 特 别 是 ， 我 们 使 用 下 面 两 种 技术 
的 结合 (LeCun et al. ,1990a); 
1. 通过 使 用 称 为 接收 域 “ 的 局 部 和 连接， 限制 网 络 丫 构 。 
2, EARS! | RAE ERE, 
LERTE, RRB, ARH, CRA A HBR FE, 
作为 特例 ， 考 虑 一 个 如 图 1-20 所 示 的 x, 1 
部 分 连接 前 馈 网 络 。 这 个 网 络 有 和 带 限 制 的 Xy ee: | 
结构 。 顶 部 6 SET RAMA Ly oo 人 
的 接收 域 ， 网 络 其 余 陷 藏 神经 元 类 推 。 为。 = ye 





















MERAH, RIEMRIEDET OSS 
神经 元 使 用 同一 组 突 触 权 值 。 这 样 , 对 图 。 Se 
1-20 所 示 的 例子 ,每 个 隐藏 神 经 元 有 6 个 CC 
局 部 连接 ， 共 有 4 个 隐藏 神经 元 ， 我 们 可 以 > 
aj 元 的 ec 
表示 每 个 隐藏 神经 元 的 诱导 局 部 域 如 下 
v= Dy Wiji» j=1,2,3,4 (1.29) . . 


其 中 1w,15., 攀 成 所 有 四 个 隐藏 神经 元 共享 源 节 点 输入 层 MBETE 。 。 输出 神经 元 导 


的 同一 权 值 集 ，% 为 从 源 节 点 =i+j-1 图 1-20 联合 利 朋 接受 域 和 权 值 共享 的 图 例 。 所 
挑选 的 信号。 方程 (1.29) 为 卷 积 和 的 形式 。 有 四 个 隐 神 经 元 共享 它们 突 触 连接 的 柑 问 权 值 集 


由 于 这 个 原因 ， 使 用 这 里 撞 述 的 局 部 连接 和 权 值 共享 的 前 馈 网 络 称 为 卷 积 网 络 。 
焉 神经 网 络 的 说 计 中 建立 先 验 信息 的 问题 是 属于 规则 4 的 一 部 分 ; 该 规则 的 剩余 部 分 涉 
及 不 变性 问题 。 


如 何在 网 络 设计 中 建立 不 变性 


AS SP Py BAIR 
* 当 感 兴趣 的 目标 旋转 时 ， 观 察 者 感知 到 的 自 标 的 图 像 通 常会 有 相应 的 变化 。 
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。 THECUS E R R RAHAT BAP, E FARHAT Aes 

EADE RY ee a eR a ERES ETAR EET ER 

© Ana ADT AA aR ER Ye HL 

AT ape we — PT UR ABE. — PRIA A pI RA Pie al Be hi 
We, FAEM UME AKL SO Re. Fl, ARAR R E 
LS RI ERA RMB, HR, TPR a APR BIT A Sot eae 
输 人 观察 信号 变换 的 影响 . 

BD a] 用 三 种 按 术 使 得 分 类 敌 型 的 神经 网 络 对 变换 小 这 (Barnard and Casasent,1991); 

1. 结构 不 变性 。 拓 当地 组 织 它 的 设计 ， 在 神经 网 络 中 加 进 不 变性 。 特 别 是 ， 在 建立 网 
络 的 昼 经 元 罕 触 连接 时 要 求 同 一 输 人 焉 揪 后 必须 得 到 同样 的 输出 。 鲍 如 考虑 利用 神经 网 络 对 
输 人 人 图像 的 分 类 问题 ， 要 求 神 经 网 络 在 平面 内 不 受 关于 中 心 的 旋转 的 影响 。 我 们 可 以 在 网 络 
中 强制 如 上 旋转 本 变性 如 下 : Se, 表示 神经 元 i 和 输 人 网 像 的 像素 ; 的 连接 。 如 果 对 所 有 两 
“7 2) PS CP eS ae A A lle, = ze ， 那 人 么 神经 网 络 对 平面 内 的 旋转 不 变 。 但 
是 为 了 保持 旋转 不 变性 ， 对 从 原点 出 发 的 相同 半径 距离 上 的 输 人 图 像 的 每 个 像素 必须 复制 突 
IUE 四、 这 指出 了 结构 不 变性 的 一 个 缺点 : 神经 网 络 即 使 在 处 理 中 等 大 小 的 图 像 时 ， 网 
络 中 的 连接 数 日 也 会 变 得 非常 大 。 

2. 训练 不 变性 .神经 网 络 有 天 生 的 模式 分 类 的 人 能力。 利用 这 种 能 力 可 以 惫 接 得 到 下 向 
的 变换 不 变 人 性。 用 一 些 来 自 同 一 目标 的 经 不 同 变换 后 得 到 的 样本 ( 即 目 标的 不 同方 面 ) 训 练 网 
络 ， 这 些 样 本 代 私 着 目标 的 不 同 变换 。 假 设 样本 足够 大 且 训 练 后 的 刚 络 已 经 学 会 分 辩 目 标的 
不 同方 面 ， 我 们 就 可 以 期 望 训 练 后 的 网 络 能 对 已 出 现 目 标的 不 同 变换 作出 正确 的 推广 但 是 
从 工程 的 骨 度 看 ,训练 不 变性 有 两 方面 不 足 : 第 一 ， 如 果 一 个 裤 经 网 络 吕 练 后 对 已 知 变换 的 
日 标 有 不 变性 ， 不 一 定 能 保证 它 对 其 他 类 型 的 目标 的 变换 也 有 不 变性 。 第 二 ， 网 络 的 计算 要 
求 太 难 对 付 了 ， 特 别 在 高 维特 征 空间 尤其 如 此 。 

3. 特征 空间 不 变性 。 第 三 种 建立 神经 网 络 不 变性 分 类 容 的 技术 如 图 1-21 所 示 。 它 依赖 
于 这 样 的 挤 提 条 人 忻 ， 即 能 提取 表示 答 人 数据 本 质 信 息 内 容 特 性 的 特征 ， 并 且 它 半 畏 人 的 变换 
保持 林 变 。 如 果 使 用 这 样 的 特征 ， 那 么 分 类 神经 网 就 可 以 从 刻画 具有 复兴 的 判定 边界 的 日 标 
赤 搞 范围 的 负担 中 解脱 出 来 。 确 实 ， 同 一 目标 的 不 同 的 事例 的 差异 仅仅 在 于 噪音 和 人 避 发 事件 
村 不 可 避 锅 因素 的 影响 。 特 征 空 间 和 不 变性 提供 了 一 个 明显 的 好 处 :第 一 ， 适 用 于 网 络 的 特征 
数 可 以 降低 旬 理 想 的 水 平 . 第 一， 网 络 设计 的 要 求 放 宽 了 。 第 三， 所 有 日 标的 已 知 变 换 的 不 
变性 都 得 到 保证 (Barmnard and Casasent,1991 )。 人 和 但是， 这 个 方法 要 求 所 求 问 题 的 先 验 知识 。 


有 已 的 说 来 ， 利 用 所 描述 的 不 变性 特征 
可 以 提供 最 适合 神经 网 络 分 类 器 的 。 输入 a 
A T PIED STEN IES, ik“? 图 1-21 不 变性 特征 空间 型 系统 方 框图 

HT, FAT SST KAS, HAG 

隔 能 是 飞机 ， 天 气 ， 马 磅 和 地 面 间 标 。 从 这 些 日 标的 雷达 回声 有 将 有 的 谐 特征。 并 且 ， 实 验 
研究 表明 这 样 的 雷达 信号 容易 用 阶 为 中 等 大 小 的 自 回 娄 {autorepgressive, AR) 过 程 模型 来 建 模 
(Haykin and Deng, 1991)。AR 覃 型 是 如 下 对 复数 数据 定 愉 的 回归 模型 的 特殊 形式 : 
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a(n) = Steele de eta) (1.30) 


其 中 a (* DARA, MAHREM., clo ARMA, e(n) NGOREK., BEL, HE 
(1.30) 89 AR RANI PRERA ERBER, WME 1-22a 中 M=2 WE., PHE, €e hA 
1-22b PARA ERB RUN, ER RRA Ra AA, B 1-22a 中 模型 的 AR 系数 机 图 1- 
22b HRA RY Ay he IN FR, ZR A aR IRA x{n) 是 复数 ， 因 为 在 由 十 雷达 
的 情形 AR 系数 和 反射 系数 部 为 复数 -在 方程 41.30) 和 图 1-22 PWR SRN AK. ME 
可 以 说 由 于 乌 达 数据 可 以 用 HÁ Se AIR, BRA ALA AA A Be. 后 一 组 
系数 有 计算 上 的 优点 ,已 存在 及 效 的 算法 从 输入 数据 直接 计算 但是， 特征 提取 问题 是 很 复 
水 的 ， 因 为 活动 物体 产生 不 同 的 多 普 勒 频率， 这 取决 测 得 的 物体 相对 于 雷达 的 径 疝 速度， 以 
及 作为 特征 判别 式 的 反射 系数 的 谱 分 布 会 产生 模糊 。 为 了 克服 这 种 困难 ， 我 们 必须 建立 反射 
系数 计算 中 的 多 首 勒 不 变性 。 第 一 个 反射 系数 的 相位 角 结 果 与 雷达 信和 上 与 的 多 普 勒 频率 相等 . 
相应 地 ,， 归 一 化 多 普 勒 频率 可 以 去 掉 平 均 多 普 勒 平移 的 均值 。 这些 可 以 通过 从 输入 数据 计算 
得 到 的 常规 反 山 系数 | | 定义 新 的 反射 系数 ix ! 来 实现 : 
Ko =ee™, m= 1,2,.…,M (1.31) 





b) 


图 ]-22 Br A ERW 
ay HARIKA DREE RE N ERR ESE) 
其 中 日 为 第 一 反射 系数 的 相位 和 角 。(1.31) 描 述 的 运算 称 为 外 差 法 。 一 组 多 普 勒 不 变 雷 达 特 征 
HY ey A(R RR ay 表示 ，xK | 为 惟一 的 实 系 数 。 我 们 说 过 ， 空 中 监控 的 雷 
达 目 标 主 要 可 归 类 为 飞机 、 天 气 、 乌 群 和 地 面 ， 前 三 类 目标 部 是 动 的， 后 一 种 人 不是。 地 面 回 
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A oT eee — ee < — a a m, < Č ST el el 


EPUI Ise ar RELA, AARDSE A F, HEL AA KROL ay PHAN 
的 ， 雷 达 分 类 器 包括 一 个 如 图 1-23 所 冰 的 后 处 理 器 ， 操 作 分 类 结果 (编码 标 导 ) 以 识别 地 而 
Æ (Haykin and Deng 1991}, 这 样 ， 在 图 1-23 PRA BRA A PH Sw 
PABA EERIE, WE Xb 28 Sl] AY > EPR pk E A TA Ka S- 








飞机 

| 特征 抽取 器 鸟 
Bias ( 预 处 理 器 ) 天 所 
地 而 





SB ih ie. 
E 1-23 雷达 倩 所 的 多 普 勒 平移 不 变 分 类 器 


仲 经 网 络 知 识 表示 的 一 个 更 有 趣 的 例子 是 蝙 蝇 的 生物 回声 定位 声 纳 系统 。 为 了 声音 映 
射 ， 大 多 数 蝙 蝠 使 用 频率 调制 (FM BE“ chirp” fas, 4 FM 信和 号 中 信和 号 的 瞬时 频率 随时 间 洁 
化 。 特 别 的， 蝙蝠 用 口 发 出 短 时 FM 声 纳 信号 ， 用 听觉 系统 来 作 接收 器 。 对 于 感 兴趣 的 目标 
癌 疡 在 斩 营 系统 中 选用 不 同志 背 参 数组 合 的 神经 元 活动 来 表达 。 蝙 是 的 听 党 表达 有 一 个 主要 
的 神经 维 数 (Simmons, 1991 ; Simmons and Saillant, 1992 ); 
* 回声 频 季 ,在 耳蜗 频率 图 中 被 编码 ;通过 整个 听觉 系统 的 通路 保 在 ， 按 照 调制 成 术 
同 频 率 的 一 定神 经 元 的 有 序 排列 。 

* 回声 幅度 ， 由 其 他 具有 不 间 动 态 范 围 的 神经 匹 编码 ; 它 被 表示 成 幅度 调制 和 每 个 刺 
激 的 放电 次 数 。 

* 回声 延迟 ， 通 过 神经 计算 编码 { 基 于 交叉 相关 ) 并 产生 延迟 选择 响应 。 它 补 表 示 成 目 
标 范围 调制 。 

用 于 疼 像 形成 的 目标 回声 的 两 个 主要 特点 是 日 林 的 “形状 "的 谱 和 月 标 范 围 的 延迟 。 利 用 
目标 不 同 反 射 面 的 回声 (反射 ) 的 到 达 时 间 ， 蚁 晤 感知 “形状 "。 为 瑟 日 的 ， 同 声 谱 的 频率 信息 
被 转换 为 目标 的 时 间 结 构 的 估计 。 由 Simmons 及 其 人 台 作 者 对 标 包 大 蝙蝠 ( Eptesicus fuscus ) 进行 
的 试验 ， 严 格 验 证 了 这 个 转换 过 程 ， 它 的 组 成 包括 并 行 时 域 转换 和 频率 对 时 域 转换 构成 ， 它 
的 收 伍 箱 出 产生 上 月 标的 感知 图 像 的 范围 轴 上 上 的 共同 和 让 迟 。 虽 然 最 初 热 行 的 男声 延迟 的 听觉 时 
加 表示 和 回声 谱 的 频率 展示 的 方法 不 同 ， 但 看 起 来 蝙蝠 的 感知 协调 性 归 因 于 变换 自身 的 一 些 
性 质 。 并 且 特 征 不 变性 被 笠 和 人 殊 纳 图 像 形 成 过 程 ， 所 以 它 本 质 上 独立 于 昌 标 相对 运动 和 蝙蝠 
目 己 的 运动 。 

可 到 本 下 主题 上 米 ， 即 神经 网 络 中 的 知识 表示 ， 这 个 论题 和 1.6 节 描述 的 网 络 结构 有 直 
接头 系 。 不 浴 的 有 是， 还 没有 成 功 的 理论 可 以 根据 环境 优化 神经 网 络 结 构 ， 或 者 评价 修改 网 络 
结构 对 网 络 内 部 却 识 表示 的 影响 。 实 际 上 ， 对 这 些 问题 的 满意 结果 经 常 要 用 窍 尺 试验 研究 来 
得 到 ， 这 样 昼 经 出 络 的 设计 者 也 是 结构 学 习 环 中 的 关键 部 分 ， 

不 管 如 和 何 完成 设计 ， 对 于 感 兴 趣 的 问题 领域 的 知识 ， 总 是 以 相当 简单 和 直接 的 方式 通过 
末 网 络 的 训练 来 得 到 的 。 这 样 获得 的 知识 ， 网 络 通 过 突 触 连接 的 权 值 以 简洁 的 分 布 式 形式 囊 
再 。 这 称 形 式 的 刊 识 表示 使 得 神经 网 络 可 以 改进 和 推广 ， 不 幸 的 是 神经 阅 络 受到 它 固 有 的 缺 
乏 散 释 能 力 的 用 扰 ,， 即 不 能 以 综合 的 方式 解释 作出 诀 定 或 报告 输出 结果 的 计算 过 程 。 这 是 一 
个 产生 的 局 限 ， 特 别 是 对 于 那些 主要 关注 安全 的 任务 ， 比 如 空中 交通 管制 和 医疗 诊断 。 在 这 


ww ai bbt.com TAAWAOAA 





EJ 


22 EIF 


— SS SS _ TE Ė EE EEE 
EE ma EE LS EE TE - - TEE EE 


类 应 用 中 ， 提 供 某 种 形式 的 解释 能 力 不 仅 足 非常 期 形 的 ， 向 县 是 绝对 需要 的 。 提 供 这 种 功能 
的 一 个 方法 是 把 神经 网 络 和 人 于 智能 集成 - i Re, REE PTE. 


1.8 人 工 智能 和 神经 网 络 


A LIIE ADA E PEA CRA A E ETER AHE A BIELA te ETETA E. 
是 Sage Æ 1990 年 采用 的 关于 条 的 陈述 。 请 注意 ， 这 并 不 是 人 工 智能 惟一 公认 的 定义 

一 个 AT 系统 必须 可 以 完成 二 种 工作 ， {1) 储 备 知 识 ，(2) 
使 用 情 备 知识 解决 问题 ，!3) 通 过 经 验 效 得 新 知识 。 一 个 Al 
系统 有 三 个 关键 部 分 : 表示 ， 推 理 和 学 习 ， 如 图 1-24 所 未。 

Lam. BI A RE SORE ARASH 
DEY SE TA FAR CER R a] A Sa — ARE ST Pl) OR AE A E R AN 
识 。 这 些 符 好 通常 以 常见 的 形式 用 于 会 式 中 ， 使 得 使 用 者 比 
ieee ey SE A 的 符号 表 式 。 确实，AF 明确 的 符号 全 得 它 很 
适合 人 机 交流 。 

AT 研究 大 员 所 使 用 的 “知识 "只 不 过 是 数据 的 另 一 种 名 
称 ， 它 可 以 是 说 明 性 的 ， 也 可 以 是 程序 的 。 在 说 明 表示 中 ， 人 
知识 用 一 种 静态 的 事实 集合 以 及 相应 的 一 小 组 操作 这 些 事实 all 
AS He HR. UPA Sea — ARER REP AS RPE ASHES, MSENE 
Al 系统 用 途 无 六 。 男 一 方面 ， 在 程序 表示 中 ， 和 知识 共和 一 种 可 执行 代码 中 ， 由 代码 表达 知 
如 的 舍 艾 。 这 两 种 形 陈 的 知识 ， 不 管 荐 说 明 性 的 或 程序 的 ， 在 大 多 数 问 题 领 域 中 都 是 需要 
的 。 

2. 推理 。 在 它 最 基本 的 形式 中 ， 推 理 是 解 次 问题 的 能 力 。 一 个 可 以 称 为 推理 系统 的 系 
统 必 须 具备 -- 定 条 件 (Eischler and Firschein , 1987) ， 

。 系统 必须 能 够 表示 和 解决 广泛 领域 内 的 问题 和 问题 类 型 ， 

* 系统 必须 能 够 利用 它 所 知道 的 明确 的 或 隐 含 的 信息 。 

* 系统 必须 有 一 个 控制 机 制 ， 可 以 决定 解决 特定 问题 时 使 用 哪些 操作 ， 什 么 时 候 已 经 

狭 得 问题 的 一 个 特定 解 ， 或 者 什么 时 民 应 该 中 止 问题 的 进一步 工作 。 

求解 中 的 问题 可 裤 看 作 一 个 搜索 问题 。 处 理 * 搜 索 " 的 通用 方法 是 使 用 规则 、 数 据 、 控 制 
(Nilsson, 1980 ) 。 规 则 作 放 于 数据 ， 有 而 控制 作用 于 规则 。 考 虑 一 个 例子 ,“ 旅 行商 问题 "要 求 
是 找 出 最 短 的 周游 各 个 城市 日 每 个 城市 仅 经 过 一 次 的 旅行 线路 。 这 个 问题 的 数据 由 可 能 的 线 
路 集 和 费用 的 加 祝 图 构成 ， 规 则 雇 定 从 一 个 城市 到 另 -… 个 战 市 的 路 径 ， 控 制 决定 在 何 时 使 用 
什么 规则 。 

在 现实 中 四 到 的 很 多 情况 (如 医疗 诊断 ) ， 可 用 知识 是 不 完整 和 不 准确 的 、， 这 时 使用 概率 
推理 程序 ， 从 而 允 证 Al 系统 可 以 处 埋 不 确定 性 (Russell and Norvig, 1995; Pearl, 1998} 。 

3. 5), 在 图 1-25 所 示 的 简单 机 器 学 习 模 型 中 ， 环 境 向 学 习 单 元 提供 信息 ， 学 习 单 元 
用 这 些 情 息 来 改进 知识 库 ， 最 后 性 能 单元 使 用 知识 库 完 成 它 的 任务 。 环 境 给 予 机 器 的 这 些 信 
最 通 贡 是 不 完 亚 的， 所 以 学 习 单 元 不 能 事先 知道 如 何 补 充 遗 让 的 细节 或 忽略 不 重要 的 细节 。 
内 而 系统 只 能 赁 猜测 开始 运行 ， 然 后 接收 性 能 单元 的 反锁 。 反 馈 机 制 可 以 使 机 器 评价 它 的 假 
没 并 作出 必要 的 修正 。 
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图 1-25 BLAH En, 


Hare ARRA R EA. HARR a AR ROS, 一般 模 式 和 规则 
HME EARE. 在 演绎 信息 处 理 中 ， — AOA aR HAERERE, A PHR 
性 的 学习 使 用 归纳 ,但 是 定理 的 诗 明 是 公理 和 已 知 定 谋 的 演绎 基于 解释 的 学 同时 使 用 演 
绎 和 归纳 。 

车 识 库 的 重要 性 和 学 习 中 的 困 准 使 得 发 展 各 种 方法 增加 知识 库 。 特 别 是 ， 如 果 在 给 定 领 
域 有 专家 ， 那 么 取得 编辑 好 的 专家 经 验 比 试 役 复 制 和 亲自 经 历 获得 经 验 的 过 程 鉴 容易 得 多 。 
实际 .上 ， 这 就 是 专家 系统 的 思想 。 

EE RE ATT SA AI Bas SPE Ay tA A A ed A Ba ELBE? 为 了 这 个 比较 ， 我们 
作 下 面 3 分 支 : 解释 水 平 ， 处 理 风 格 和 表示 结构 (Memmi,1989) 。 

1. eR, FRA 站 中， 重点 是 建立 竺 村 表示 ， 这 样 称 呼 天 概 是 因为 它们 代表 某 些 
事物 。 从 记 知 的 观点 ，AI 假设 存在 心理 表示 ， 并 且 它 以 符号 表示 的 顺序 处 理 对 认 知 建 模 
( Newell and Simon, 1972) 。 

力 一 方面 ， 神 经 网 络 强调 的 重点 是 并 行 分 布 式 处 理 (PDP) 模 型 的 发 展 。 这 些 模 增 假 定 信 
县 处 理 通过 大 量 神 经 元 间 的 相生 作用 来 进行 ， 网 络 中 每 个 神经 元 发 送 兴 奉 或 抑制 信和 号 给 其 他 神 
经 元 (Rumelhart and MeClelland ,1986 }。 同 时 ， 神 经 网 络 更 强调 认 知 现象 的 神经 生物 学 解释 。 

2. 处 理 风 格 。 在 传统 的 A 中， 如同 在 瞄 覃 的 计算 机 程序 中 一 样 寻 理 是 串 行 的 。 妈 使 在 
谤 有 事先 确定 的 顺序 (例如 扫 拉 专家 系统 的 事实 和 规则 ) 的 情况 下 ， 处 理 还 是 -: 步 一 步 进 行 
的 。 串 行 处 理 的 灵感 最 可 能 来 自 自 然 语 言 和 逻辑 推理 的 串 行 性 以 及 von Neumann 机 器 的 结 
构 。 不 应 上 忘记， 传统 的 A 在 von Neumann 机 器 之 后 不 久 诞 生 的 ， 它 和 von Neumann 机 器 有 着 
相同 的 智力 纪元 。 

相反 ， 并 行 性 在 概念 上 不 仅 是 神经 网 络 信息 处 理 的 本 质 ， 也 是 它们 灵活 性 的 来 源 。 并 且 
并 行 性 是 太 规 模 的 ( 几 十 万 个 神经 元 ), 这 给 予 神经 网 络 一 个 很 好 的 兽 棒 性 。 计 算 被 扩展 到 许 
多 神经 元 网 络 中 ,， 个别 神经 元 的 状态 同 它 们 的 期 望 值 偏离 并 不 重要 。 噪 音 输入 或 者 不 完全 的 
御 入 也 可 以 被 识别 ， 受 损 网 络 也 可 以 满意 工作 ， 并 划 学 不 必 完 美 。 网 络 的 性 能 在 一 定 范围 
内 缓慢 下 降 。 网 络 甚至 可 以 通过 “ 粗 编码 " 而 更 加 健壮 (Hinton,1981)， 这 里 每 个 特征 散布 在 儿 
个 神经 元 上 。 

3. 表示 里 构 。 传 统 的 AI 追求 思维 的 语言 为 模型 ， 我 们 发 现 符号 表 拓 具有 拟 语 言 结 构 。 
像 自然 语言 的 表示 一 样 ， 经 典 的 AI RAR RRR, PAAR SWRA hee. 
定 有 限 的 符号 集 ， 有 意 闵 的 新 表达 式 可 能 由 符号 表达 式 的 组 合 性 以 及 语法 结构 和 语义 的 类 比 
构成 。 

表示 的 本 不 和 结构 是 神经 网 络 的 关键 问题 。 在 1988 年 3 月 Cognition) (iF A) BREE 
上 ，Fodor Al Pylyshyn 有 力 地 批评 了 神经 网 络 在 处 理 认 知 和 语言 中 的 计算 适宜 人 性。 他 们 表示 
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们 的 观点 ， 对 于 传统 的 Al me: 

* 心理 表示 独特 地 表达 了 组 合 网 组 成 结构 和 组 滞 语义 。 

。 心理 过 程 对 它们 操作 的 表示 的 组 侣 结构 特别 敏感 - 

HE, AN a AT E ER OR LO 

DEKE, FTAA AR ae Al 描述 成 着 算法 语言 和 数据 表示 的 下 项 向 下 的 形式 操作 。 
坦 是 ， 可 以 把 神经 网 络 描述 成 是 具 有 天 生 的 学 习 能 力 的 并 行 分 布 式 处 理 嚣 ， 通 常 以 由 底 向 上 
岁 方 式 运 行 。 对 于 实现 认 知 尾 务 , 看 起 米 不 能 单独 使 用 基于 符号 4 好 或 神经 网 络 寻 求 答案 ， 
一 个 更 有 效 的 方法 是 集成 二 者 ， 建 立 结 构 化 的 连接 论 者 模型 或 混合 系统 。 这 样 做 ， 我 们 能 组 
合 覃 经 网 络 的 期 望 自 适 应 性 、 鲁 棒 性 及 一 致 性 特征 以 及 符号 AI 固有 的 表示 、 推 理 及 通用 性 
FFE ( Feldman , 1992; Waltz,1997 )。 实 际 上 ， 基 于 这 个 日 标 ， 已 开发 出 从 训练 过 的 神经 网 络 中 
抽取 规则 的 方法 。 除 了 理解 皇 样 集成 符 导 和 连接 论 者 方法 以 建立 智能 机 器 ， 从 神 既 网 络 中 扫 
取 规 则 还 其 他 几 个 原因 (Andrews and Diederich, 1996) - 

。 用 户 接 这 和 理解 神经 网 络 的 内 部 状态 有 助 于 确认 软件 系统 中 神经 网 络 组 件 的 正确 性 。 

© 通过 (1) 排 别 没有 和 挝 当 表 示 的 训练 数据 在 输入 空间 中 区 域 ,， 或 (2) 指 明神 经 网 络 可 能 

无 法 推广 的 环境 ， 提 高 神经 网 络 的 活化 能 力 。 

。 发 现 用 于 数据 探索 ( 控 拨 ) 的 输入 数据 的 潜在 特征 。 

* 在 乔 能 机 器 开发 中 提供 穿越 连接 沦 者 方法 和 符号 方法 的 边界 的 手段， 

*。 在 安全 性 为 必 归 条 件 的 特殊 类 型 的 系统 中 满足 安全 的 严格 需要 。 


1.9 历史 注释 


我 们 用 一 些 历史 注释 "结束 这 一 章 对 神经 网 络 的 介绍 。 

现代 的 神经 网 络 开始 于 MeCulloch and Pits(1943) 的 开拓 性 工作 。MeGCulloeh 被 培养 成 精神 
炳 学 家 和 解剖 学 家 。 他 用 20 年 的 时 浊 沽 处 神经 系统 中 关于 事件 的 表示 问题 。Pitts 是 数学 天 
才 ， 于 1942 年 如 入 McCulloch 的 工作 。 根 据 Rall{1990)，MeCulloch 和 Pitts 1943 年 写 的 论文 在 
一 个 神经 建 模 小 组 公布 时 ， 该 小 组 在 Rashevsky 领导 下 在 芝 加 如 大学 至 少 五 年 前 就 很 活跃 了。 

在 他 们 的 经 典 论文 里 ，MeCalloch 和 Pitts 结合 了 神经 生理 学 和 数理 逻辑 的 研究 描述 了 一 
个 圳 经 网 络 的 逻辑 演算 。 他 们 的 神经 元 模型 假定 蘑 循 一 种 所 请 “有 或 无 "(o 忆 ornone) 规 则 。 
如 果 如 此 简单 的 神经 元 数 目 足 够 务 和 适当 设置 突 触 连接 并 有 下岗 步 操作 ，Meculloch 和 Pitts 证 
明 这 样 悔 成 的 网 络 原则 上 可 以 计算 任何 可 计算 函数 .。 这 是 一 个 有 重大 意义 的 结果 ， 有 了 它 就 
标 塌 着 神经 网 络 和 和 人工 智能 学 科 的 诞生 。 

McCulloch 和 Pitts 1943 年 的 论文 从 那 时 直到 现在 一 直 被 广泛 阅读 。 它 影响 了 von 
Neumann, {FFE EDVAC(Electronic Discrete Variable Automatic Computer, Hi FS BRÆJ H af 
计算 机 ) 中 ， 使 用 从 McCulloch 和 Pitts AUPE 270-4 HH RAE A EIR CT, RE LEE 
ENIAC( Electronic Numerical Integrator and Computer， 电 子 数值 积分 器 和 计算 机 ) 发 展 而 来 的 
( Aspray and Burks,1986)。FNIAC 是 第 一 台 通 用 电子 计算 机 ， 从 1943 年 到 1946 FEES HRE 
亚 大 学 摩尔 电子 工程 学 院 建 成 。MeCulloch-Pitis 的 形式 化 神经 网 络 理 论 ， 在 von Neumann 1949 
年 在 ljinois 大 学 所 和 作 的 四 个 报告 的 第 二 个 报告 中 成 为 主要 内 容 。 

1948 年 ，Wiener HJA 4 Cybernetics) (控制 论 ) 出 版 ， 为 控制 、 通 信和 统计 信 入 处 理 措 述 
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TARERE. 1961 EPA RR AT. RIM SRP PAYA A. ER 
TAUB 2 SEP, Wiener 看 来 在 主题 方面 抓 住 了 统计 力学 的 物理 意义， 但 是 把 统计 力学 和 学 
对 系统 连 系 起 来 获得 丰硕 成 果 ， 却 留 给 了 Hopfield( 在 30 多 年 以 后 ). 

神经 网 络 第 二 个 重要 发 展 是 在 1949 T Hebb 的 书 《 The Organization of Behavior》( 行 为 人 组织 
学 ) 出 版 ， 他 看 书 中 第 一 -次 清楚 说 明了 突 触 修正 的 和 牛 理 学 学 习 规 则 。 特 别 是 ，Hebb 提出 人 脑 
的 连接 点 式 在 机 休学 习 不 同 功能 任务 时 是 连续 变化 的 ， 神 经 组 织 就 是 通过 这 种 变化 创建 起 来 
Hy. Hebb 继 玉 了 Ramón y Caj 纪 早期 的 假 迟 并 引信 上 自己 现在 善 名 的 学 习 人 和 起 说 ， 凤 两 个 神经 元 
之 半 的 可 变 窒 触 的 作用 被 突 触 两 庙 覃 经 元 中 一 个 对 另 一 个 的 重复 的 激活 加 强 了 。Hebpb 的 书 
企 心 理学 家 中 有 巨大 的 影响 ， 伍 遗 幅 的 是 对 工程 界 影响 很 少 或 设 有 影响 。 

Hebb 的 书 是 学 习 系 统 和 自 适 应 系 统 的 计算 模型 发 展 的 灵感 源 果 。 Rochester, Holland, 
Haibt and Duda 的 论文 41956)， 也 许 是 用 计算 机 模拟 测试 以 Hebb “49 (Bt ah A a R A 
化 的 神经 理论 的 第 一 次 尝试 ; 论文 报告 的 模拟 结果 表明 必须 加 上 拙 制 理论 才 能 实际 工作 ， 间 
一 年 ，Duley(1956) 演 示 了 带 有 可 修改 的 突 触 的 神经 网 络 ， 可 以 学 习 分 类 简单 的 二 值 模式 集 。 
Utiley S)A T AIA at Fe kok, Fo KAF A (leaky integrate and fire neuron), A Æ Caianiello( 1961 ) 
对 蕊 进行 了 形式 化 分析 。 在 再 较 晚 的 工作 中 ，Lttueyfl19795) 盘 设 了 神经 系统 可 变 罕 和 触 的 作用 
依赖 于 突 触 两 端 波 动 状态 的 统计 关系 ， 因 此 和 Shannon 的 信息 沦 联系 起 米 。 

1952 年 Ashby HY +4 Design fora Brain: The Origin of Adaptive Behavior )(RRAYIZIT: 自 适 应 
TAKER) Wik, AMER -R iS] AAT, KARR MBAS, OD 
HiT AREF GERM RAS IN, HSU se BOT ASBRE, eae 
强调 活 的 机 体 如 辣 机 器 的 动态 方面 和 有 关 稳 定性 的 概念 。 

1954 年 Minsky TES MASS 了 “神经 网 络 " 的 簿 十 论文 ， 题 日 是 “Theory of Neural- 
Analog Reinforcement Systems and Its Application to the Brain-Model Problem”. 1961 年 Minsky a te 
了 早期 关于 AI 的 优秀 论文 “Steps Toward Artificial Intelligence”, HME MEH TAKE 
称 为 昼 经 网 络 肉 容 的 大 节 。1967 年 Minsky 出 版 了 《 Computation: Finite and Infinite Machines 
‘计算: 有 限 和 无 限 机 髓 ) 这 本 书 、 它 是 第 一 本 以 书 的 形式 扩展 了 McCulloch 和 Pitts 1943 年 的 
后 宁 ， 并 把 它 相 置 于 自动 机 理论 和 计算 理论 的 背景 中 。 

也 是 在 1954 F, Gabor 提出 了 非 线 性 自 适 应 滤波 器 的 思想 ， 他 是 早期 遂 信 理论 的 先驱 者 
之 一 和 全 息 照 相 术 的 发 明 者 。 他 接着 在 合作 者 的 帮助 下 致力 于 建立 这 样 的 机 器 ， 其 细节 描述 
4. Gabor et 引 .(1960) 中 。 退 过 把 随机 过 程 样本 以 皮 希 望 机 器 产生 的 目标 函数 一 起 提供 纵 机 器 
来 完成 学 习 。 

20 世纪 50 年 代 ，Taytor(1956) 开 始 研究 联想 记忆 。 接 着 Steinbuch(1961)4| AT JE, 
这 个 此 阵 由 播 枉 成 行 的 "感觉 "接收 器 和 "马达 "效应 器 之 间 的 开关 平面 网 络 构成 。 在 1969 生 ， 
Wilishaw, Buneman 和 Longuet-Higgins 发表 了 天 于 非 全 县 照相 术 的 联想 记忆 的 优秀 论文 。 这 篇 
文章 给 出 了 两 类 网 络 模型 : 实 更 相关 矩阵 的 简单 光学 系统 和 由 光学 记忆 提出 的 与 之 相关 的 神 
经 网 络 。 腾 想 记 忆 早 期 发 展 的 其 他 重要 贡献 包括 Anderson ( 1972), Kohonen ( 1972) 和 Nakano 
(1972) 的 文章 ， 他 们 在 同一 年 在 外 积 学 习 规 则 的 基础 上 独立 地 引 和 相关 矩阵 记忆 的 思想 。 

Von Neumann 是 20 世纪 前 3 年 的 科学 巨 后 。 数 学 计算 机 设计 的 基础 von Neumann #E AYA 
了 纪念 他 而 合 名 的 。1955 FERS RE 1956 年 作 Silliman 报告 。 他 死 于 1957 年 ， 稍 
后 他 的 杰 完 成 的 Silliman F ER PB: <The Computer and the Brain CHE ALALA B, 
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1958), RÆ BRAHE, AA HAR AME von Neumann 不 死 他 会 做 什么 :他 开始 意识 到 人 
脑 和 计算 机 的 巨大 差异 ， 

神经 网 络 中 特别 关心 的 一 个 问题 是 利用 被 认为 不 可 靠 的 神经 元 部 件 构建 可 靠 的 神经 网 
$A. von Neumann( 1956) 利 用 元 余 的 思想 解 次 了 这 个 重要 的 问题 ， 这 种 思想 使 得 Winograd 和 
Cowant1963) 建 议 在 神经 网 络 中 使 用 分 布 式 元 余 表示 。 人 他们 让 晶 大 量 的 元 件 怎样 能 集体 表示 
增加 和 鲁 棒 性 和 并 行 性 的 单个 构 念 。 

在 McCulloch 和 Pitts 的 经 典 沦 文 发 表 15 FAA, Rosenblatt 1958) 在 他 有 关 感 知 串 的 研究 
吊 提 出 了 模式 识别 间 题 的 新 方法 ,一 种 新 的 有 监督 学 习 方 法 。 所 请 的 鳄 知 器 收 比 定理 使 
Rosenblatt 取得 巨大 的 成 功 。Rosenblatt(1960b} 年 概述 了 感知 器 收 合 定理 的 第 一 个 证 明 ; 该 定 
PERY UERR E HIETE Novikof(1963) 利 其 他 人 的 上 作 中 。Widrow 和 Hoff 引进 了 最 小 均 方 (LLMS) 算 
法 并 用 它 构 成 了 Adalineladaptive linear element， 自 适应 线性 元 性 )。 感 知 器 利 Adaline 的 区 别 
在于 训练 过 程 。 最 早 的 可 训练 的 具有 多 个 和 白 适 应 元 件 的 分 层 神 线 网 络 之 一 是 由 Widow 和 他 
的 学 牛 握 出 的 Madalinet mulliple-adaline) 25 fF ( Widrow, 1962)，1967 年 Amari 把 随机 梯度 方法 用 
FRADA. 1965 Nilsson 出 版 4 Learning Machines》( 学 习 机 器 ) 一 书 ， 迄 今 为 止 仍 是 -本 用 
超 平 商 区 分 线性 可 分 模式 的 最 好 的 普 作 。 在 20 楷 纪 0 年 代 感 知 器 的 经 典 时 期 ， 好 像 神 经 网 
an) Ligeia. (Ae, BASE BY Minsky 和 Papert(1969) 的 书 ， 利 用 数学 证 明 单 层 感知 器 
所 能 计算 的 根本 局 限 。 在 有 关 狗 层 感 知 器 的 简短 -- 节 中 ， 他 们 认为 没有 任何 理由 假定 单 层 感 
起草 的 任何 局 引 可 以 在 多 层 的 情况 于 被 克服 。 

在 多 层 感知 剖 的 设计 中 而 痢 一 个 重要 的 癌 题 就 是 信任 评 值 问题 ( 即 隐藏 神经 元 侍 网 络 中 
EY fia 1 RAB mÆ). Minsky( 1961) 在 他 的 “增强 学 习 系 统 的 信任 峰值 问题 "中 首次 使 用 了 “信任 


”峰值 不 语 。 在 6 年 代 末 ， 提 出 了 解决 感知 妖 的 信任 赋值 问题 所 必需 的 大 多 数 的 思想 和 基本 


概念 ， 如 像 现在 称 之 为 Hopfield 网 络 的 递归 (吸引 子 神经 ) 网 络 所 固有 的 许多 基本 思想 。 然 
i, HA 80 年 代 这 些 基 本 问题 的 解 才 出 现 。 根 据 Cowan{1990)， 十 多 年 的 这 种 推 延 主 要 有 二 
个 原因 
© 一 个 原因 是 技术 性 的 一 一 没有 个 人 电脑 或 工作 站 作 实 验 。 例 如 ， 当 时 Gabor 发 明了 
他 的 非 线性 学 习 滤 被 器 ， 而 他 的 研究 组 为 此 花 了 另外 六 年 多 的 时 间 用 模拟 装置 建立 
了 一 个 滤波 器 (Gabor, 1954: Gabor et al. . 1960). 

© 万 外 的 原因 部 分 是 心理 上 的 ， 部 分 是 经 费 上 的 ， Minsky 和 Papert 在 1969 年 的 专题 论 
艾 当 然 趟 蕊 励 性 何人 开展 感 印 器 的 研究 工作 或 … 些 机 构 去 支持 他 们 研究 。 

* 在 神经 网 络 和 栅 格 日 旋 之 间 的 类 比 还 林 成 熟 、 直到 1975 年 Sherrington 和 Kirkpatrick 
才 发 明了 自 旋 玻璃 网 模型 . 

在 70 年 代 这 些 因 素 以 这 种 或 那 种 方式 阻 骨 了 人 们 进一步 研究 神经 网 络 。 除 了 一 些 心 型 
学 和 神经 料 学 方面 的 专家 之 外 ， 许 多 研究 人 员 在 那个 时 期 都 改变 了 研究 领域 。 确 实 只 有 届 指 
可 狂 的 年 期 并 创 痢 继续 神经 网 络 赋 究 。 从 工程 学 的 和 角度， 我 们 可 以 回 过 头 来 将 70 FRY 
神经 网 络 的 潜伏 期 。 

在 如 0 年代 上 出现 的 一 个 重要 活动 就 是 利用 竞争 学 习 的 自 组 织 时 射 。von der Malsburg( 1973) 
完成 的 计算 机 模拟 工作 也 许 是 第 一 次 演示 了 自 组 织 。 在 人 脑 中 拓扑 有 序 映 射 启发 于，1976 
年 Willshaw 利 von der Matsburg 发 表 了 第 一 篇 关于 自 组 织 有 映射 形成 的 论文 。 

在 8 年 代 神 经 网 络 的 理论 和 设计 主要 是 在 几 个 前 洛 方 面 取得 了 成 绩 ， 随 之 神经 网 络 的 
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研究 工作 进入 了 恢复 期 。 

Grossberzt 1980)， 基 于 他 的 竞争 学 习 理 论 的 喇 丧 工作 {Crossbere, 1972,.1976a,b), 3 [I 
一 个 新 的 日 组 绍 原 则 ， 束 是 者 名 的 自 适 应 + oe E te (adaptive resonance theory, ART). 2648 E 
i, it Pe A eR ERa aT PP AEE. 如果 输 人 模式 和 已 学 习 
RI Tet eo Ve Bil | 7S fe Bay Fe ie” BY a SAR AS ET BK AEE TS) aS EE 
这 个 前 向 / 反 向 蜡 射 原则 已 由 其 他 的 研究 者 在 不 同 的 条 件 下 重新 发 现 。 

在 1982 年 ，Hopfield HAE E ARA BAAR FZ ak -种 了 解 具 有 对 称 突 触 连接 的 递归 网 络 所 执 
行 的 计算 的 新 方法 。 并 且 他 夺 这 种 递归 网 络 和 统计 物理 中 使 用 的 bin 模型 之 间 建 立 了 同 构 。 
这 个 类 比 为 一 连 串 鸣 物 理 理论 (和 物理 学 家 ) 进 入 到 神经 元 模型 铺 平 道路， 因此 神经 网 络 的 
TREET: 这 类 具有 上 反馈 购 特 殊 神 经 网 络 在 80 年 代 引 起 了 入 量 的 关注 ， 在 那个 时 期 产生 
了 者 名 的 Hopfield 网 络 。 尽 管 Hopfield 网 络 可 能 不 是 真正 的 神经 生物 系统 模型 ， 它 们 包涵 的 
扬 理 5( 印 在 动态 的 稳定 网 络 中 存储 信息 的 原理 ) 是 极 深刻 的 ， 事实 上 ， 这 个 原理 可 以 追 潮 到 许 
多 其 他 研究 者 的 开拓 性 工作 : 

”Cragg and Tamperley(1954,1955) 从 观察 得 出 ， 正 是 由 于 神经 元 能 被 "点火 "(激活 ) 或 
不 后 火 以 静 正 )， 所 以 在 一 个 栅 网 中 的 原子 可 以 使 它们 自 旋 指向 “上 "或 “下 ”。 
Cowan(1967)5]A T “sigmoid” 激活 特征 和 一 个 神经 元 基于 logistic 函数 的 平滑 激活 条 件 。 

* Grossberg( 1967,1968} 引 入 了 一 个 神经 元 的 加 性 模型 ， 涉 及 莫名 性 差分 /微分 方程 ， 并 
旦 探索 了 作为 短期 记忆 为 基础 的 模型 用 途 。 

” Aman(1972) 独立 地 引信 了 了 神经 元 的 加 性 模型 ， 并 用 它 研究 随机 连接 的 瞻 神 人 经 无 的 元 
件 的 动态 行为 。 

° Wilson, Cowant1972) 推 邓 了 包括 必 奋 各 抑制 模 坦 神经 元 的 空间 局 部 化 的 群体 动力 学 看 
合 非 线性 微分 方程 。 

” Little and Shaw(1975) 描 述 了 神经 元 激活 或 不 激活 的 概率 模型 ， 并 用 它 发 展 了 短期 记 

忆 理 论 。 

Anderson Silverstein, Ritz and Jones( 1977) #¢ Hi & F fa dk AS ( brain-state-in-a-box , BSB) FAA , 

由 一 个 三 合 非 线 形 动 力学 的 简单 联想 网 络 组 成 。 

因此 用 不 奇怪 ，1982 年 Hopfield 的 论文 发 表 后 引起 了 很 大 争论 。 不 过 ， 该 论文 第 一 次 使 
在 动态 的 称 定 网 络 中 存储 信息 的 原理 清楚 了 。Hopfiled 表明 了 他 对 从 统计 力学 自 旋 玻璃 模型 
检验 具有 对 称 连 接 的 特殊 递归 网 络 语 有 洞察 力 ， 对 称 性 设计 可 以 保证 收 伍 到 一 个 稳定 的 条 
件 。1983 年 Cohen 和 Grossberg 建立 了 包括 时 间 和 连续 Hopfield MEE AHA NPE EA 
址 记忆 的 一 般 原 由。 吸引 子 神经 网 络 的 一 个 与 你 不同 的 特征 ， 是 以 魏 然 的 方式 证 明 自 己 处 于 
网 络 的 非 线 性 动力 学 中 ， 用 这 种 方式 ， 时 间 是 学 习 的 重要 维 数 。 在 这 个 背景 下 Cohen- 
Grossberg A 72 HAE Ff i 

1982 467 —T BA Ac He dE Kohonen 关于 使 用 一 维 或 二 维 格 网 结构 的 自 组 织 映 射 研究 的 文 
T, KERSA H Wilshaw 和 von der Malsburg 梢 早 的 工作 不 同 。 在 文献 中 Kohonen 工作 在 
分 析 和 应用 方面 比 Willshaw 和 von der Malsburg HIRA TEHE S ESEE, CARA g ak 
其 他 创新 的 评估 标准 。 

1983 {Œ Kirkpatrick, Gelat 和 Vecchi 描述 了 解决 组 合 最 优化 的 问题 的 称 为 模拟 退火 的 新 
方法 。 模 拟 退 火 植 根 统计 力学 ， 是 基于 Metropolis et al.(1953) 在 计算 机 仿真 中 首先 使 用 的 一 
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种 阐 单 技术 。 Ackley, Hinton and Sejnowskit 1985) 利 用 懂 执 退火 的 思想 发 展 称 为 Bolumann 机 的 
PePLSLar. EES PERT SS BA SC, A SR EHA Boltzmann 机 的 学 习 算 法 证 有 反 
丫 心 播 算法 的 计算 效率 高 ， 但 它 证 明了 Minsky and Papert( 1969) 的 猪 租 是 不 成 立 的 ， 打破 
心理 障碍 。Boltamam 机 也 为 Neal(1992) 随 后 的 sigmoid 信和 度 网 络 的 发 展 作 了 铺 执 工作 .，sigmoig 
信 夭 网络 完成 了 两 件 事 : CSU Ree: OBA MARA AEA. sigmoid fF 
络 学 习性 能 的 进 - - 步 提 高 是 Saul, Jakkolla and Jordan(1996) 利 用 一 个 植 根 于 统计 力学 的 平均 
声 理 论 作出 的 。 

Barto, Sutton 和 Anderson 一 篇 关 十 增强 式 学 习 的 论 交 发 表 十 1983 4F, BIR ALT PBA 
次 使 用 增强 式 学 习 ( 例 如 Minsky 在 他 1954 年 的 博 土 论文 中 考虑 过 它 )， 但 这 篇 文章 引起 了 闫 
于 增强 式 学 习 凡 其 在 控制 中 应 用 的 极 太 兴趣。 特别 是 ， 他 们 证 明了 一 个 增强 式 尝 习 系 统 可 以 
在 没有 攻 助 教师 的 情 癌 下 学 习 平 衡 倒 立 摆 (brmomstick ， 即 车 上 立 的 杆 )。 学 习 系 统 仅 要 求 当 村 
对 坚 间 方 回 倾斜 超过 一 定 角 度 或 车 到 达 轨 道 的 端点 时 发 出 失败 信号。1996 年 Bertsekas 和 
Tsitsiklis 的 著作 4 Neuro-dynamic》( 神 经 一 动态 规划 ) 出 版 ,这 本 书 把 增强 式 和 Bellman 的 动态 规 
划 相 联系 ， 把 它 放 在 一 个 恰当 的 数学 基础 上 。 

1984 年 Braitenberg A434 Vehicles: Experiments in Synthetic Psychology) ( |. 具 ;综合 心理 学 
的 实验 ) 出 版 。 在 这 本 书 中 Braitenberg 提出 了 目标 导向 的 自 组 织 行 为 原则 ， 利 用 公认 的 基本 
机 制 的 综合 而 非 由 项 向 下 的 分 析 是 最 好 了 解 一 个 复杂 过 程 的 方法 。 在 科幻 小 说 的 形式 下 ， 
Braitenberg 还 过 拍 述 各 种 县 有 简单 内 部 结构 的 机 器 说 明了 这 个 重 归 原则 ,， 他 对 这 样 一 个 主题 
ABR ROT FO BE: 这 些 机 器 的 特性 和 它们 的 行为 受到 有 关 动 物 脑 的 事实 的 启迪 。 

1986 年 Rumelhart, Hinton Ñi Williams 报告 了 反 向 传播 算法 的 发 展 。 同 一 年 ， 由 Rumelhart 和 
McClelland 编辑 的 着 名 的 两 卷 集 普 作 4 Parallel Distributed Processing: Explorations in the Microstructures 
of Cognition) 开行 分 布 式 处 理 ， 认 知 微 结 构 的 探索 ) 出 版 。 后 :一 本 书 在 反 向 传播 算法 的 使 用 
方面 产生 重大 芒 咯 ， 人 它 已 成 为 最 通用 的 多 层 感知 器 的 训练 算法 。 事 实 上 ， 反 向 传播 学 习 在 同 
一 时 间 在 其 他 两 个 地 方 被 独立 发 现 (Parker， 1985; LeCun, 1985). 7E 80 -AE PHA A Hl ke [oy fe HE 
BRIG, SEAR Harvard 大 学 的 Werbos 早 在 1974 年 8 月 的 博士 学 位 论文 已 经 描述 S; Werbos 的 
址 十 论文 是 描述 有 效 的 反 转 模式 梯度 计算 的 第 一 篇 文献 ， 它 被 用 于 以 神经 网 络 作为 特 便 的 一 
般 网 络 模型 。 反 癌 传 播 的 基本 思想 可 进一步 追溯 到 Bryson Al Ho(1969) 的 书 《 Applied Optimal 
control 外 应 用 最 优 控 制 )。 在 该 书 标题 为 “多 阶段 系统 "的 2.2 节 中 ,描述 了 使 用 Lagrange 形式 
He el fee ES. (BFE, 最 终 的 分 析 得 出 及 向 传播 算法 的 许多 荣誉 属于 Rumelhart, Hinton #0 
Wiliams{ 1986), A AIHER SE TESLA ES PRU RSF Bas SEER LSE. 

1988 年 Linsker 描述 了 认 知 网 络 中 自 组 织 问题 的 新 原理 {Linsker,1988a)。 这 个 原理 被 设计 
成 保持 有 关 输 入 活动 模式 的 最 大 信息 ， 以 这 样 的 约束 限制 突 触 连接 和 突 触 动态 范 责 。 其 他 几 
位 钢 党 研究 者 也 提出 了 相似 的 建议 。 但是， 是 Linsker 使 用 植 根 于 信息 理论 的 抽象 构 念 所 出 
SRA AMES (infomax) ARE, Linskke 的 文章 重新 激发 了 把 信息 理论 应 用 到 神经 网 络 中 的 兴 
趣 。 特 别 是 ，Bell and Sejnowski(1995) 所 作 的 信息 理论 对 盲 迟 号 源 分 离 问题 的 应 用 已 经 促使 许 
多 全 究 洗 探索 用 于 求解 统称 为 盲 反 卷 积 的 很 大 一 类 问题 的 其 他 信息 理论 模型 。 

同样 在 1988 年 ，Broomhead 和 Lowe 描述 了 使 用 径 向 基 品 数 (radial basis function, RBF) 设 计 
多 层 前 馈 网 络 的 过 程 ，RBF 提供 了 多 层 感 知 器 的 男 一 选择 。 径 向 基 范 数 的 基本 想法 至 少 扎 漳 
到 Bashkirov, Braverman and Muchnik (1964) E SEHR WAH BMA BS Aizerman, Braverman 
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and Rozonoer{ 1964a, h) R Fe A024 pa Hit, Duda 和 Hart( 1973) RAEE, Pattern Classification 
and Scene Analysis) FATT RA ea ew T ARR Pa. Kot, Broomhead 
and Lowe HY SC ESF BC SAK AR PRES PE BIT A OL ap BT BY ee BE SE A ER PE S 6 Te BY 
ABU LYLE. 1990 年 Poggio and Girosi( 1990a) Fl] Fi Tikhonov 的 正则 化 理论 进一步 手语 了 RBF 
网 络 理 论 : 

1989 年 Mead HK Analog VLSI and Neural Systems) CHA VLSI 和 神经 系统 ) 一 书 出 版 ， 这 本 书 
把 从 神经 生物 学 和 VLSI 技术 吸取 的 概 意 进行 了 不 寻常 的 融合 。 最 重要 的 是 ， 它 包括 Mead 和 他 
的 合作 者 加 的 关于 硅 视 网 腊 和 硅 耳 蜗 的 儿童 ， 这 些 都 是 Mead 创造 性 思维 的 活生生 的 例子 。 

在 20 世 纪 90 年代 早期 ，Vapnik 和 他 的 合作 者 发 明了 具有 强大 计算 能 力 的 一 种 有 监督 学 
过 网 络 称 为 支持 向 量 机 {support vector machine,SVM)， 用 于 解决 模式 识别 、 回 昭和 密度 估 计 等 
问题 ( Boser, Guyon and Vapnik ,1992; Cortes and Vapnik , 1995; Vapnik, 1995 ,1998)。 这 种 新 方法 是 
基于 有 限 样 本 学 习 理 论 的 结果 。 支 持 向 基 机 的 一 个 新 颖 的 特征 就 是 在 它们 的 惕 计 中 以 自然 的 
方式 包谷 了 Yapnik-Chervonenkis(VC) 维 数 。YVC 维 数据 供 了 神经 网 络 从 一 -个 样本 集中 学 习 能 思 
(P - ` 种 度量 ( Vapnik and Chervonenkis, 1971; Vapnik , 1982) .. 

MECR BEV JEP RN M. FE AGH TTL: 在 神经 
网 络 研究 中 混沌 起 关键 作用 吗 ? 在 生物 环境 下 Freeman( 1995) 相信 这 个 问题 的 答案 是 肯定 的 。 
根据 Freeman 的 看 法 ， 神 经 活动 的 模式 不 是 从 脑 外 部 强加 的 ， 而 是 从 内 部 梅 建 的 。 特 别 是 ， 
泥 病 动力 竺 对 神经 元 群体 的 内 部 和 它们 之 间 出 现 自 组 织 模式 需要 的 条 件 提供 了 进行 描述 的 一 
个 基础 。 

也 证 对 20 世纪 午 代 神经 网 络 兴趣 的 复兴 最 有 影响 的 是 Hopfield 1982 年 的 文章 和 
Rumelhar 和 McLelland 1986 *F AY) py 48-8 , m 7s te ASS E. PRES ER MA MeCulloch 和 Pitts 
的 早期 多 月 算 起 当然 已 走 过 了 很 长 一 段 路 。 确 实 它们 已 确立 了 它们 作为 植 根 于 神经 科学 D 
理学 、 数 竺 、 物 理学 和 工程 的 交叉 学 科 的 地 位 。 无 需 袭 言 ， 现 在 它们 确立 了 这 样 的 地 位 并 将 
住 理论 、 设 计 利 应 用 上 继续 深入 ， 


注释 和 参考 文献 


1} 这 个 神经 网 络 的 定 浆 来 自 Aleksander and Morton (1990), 

2] 神经 网 络 侧 重 于 神经 建 模 、 认 知 和 神经 生理 学 方面 的 补充 材料 参看 Anderson (1995). 
有 天 脑 计 算 方 面 易 族 的 材料 可 参看 Churchland and Sejnowski (1992). AERA HLA ALA 
Aer AS EB ES A Fi RO] 2849 Kandel and Schwartz (1991), Shepherd (1990 a,b), Koch and 
Segev (1989), Kuffler et al. (£984) 4] Freeman (1975), 

KF Simo bey BY AD 40 Se [BY ee Se hn Aaa: A) ZF Menon et al. (1996). 

logistic BRIA ay, ORY GAH iH, logistic 4}-fp PARC i. SEO WFR RRR HY“ logistic 
增长 律 。 笠 用 适当 的 度量 单位 ， 和 假定 所 有 的 增长 过 程 可 表示 为 logistic ai HR 


Fit) = 7 _ 


+e 
HEP : REH, a, EB Ap Ml. (AACS ENA E logistic Atii, ME Gauss 分 布 和 
其 他 分 布 静 能 应 用 于 相同 的 数据 ， 取 得 一 样 或 更 好 的 氢 合 (Feller，1968)。 
[5] 根据 Kuffler et al. (1984), “接受 不" (receptive field) 这 个 术语 最 早 由 Sherrington (1906) 创 
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WAJ, JE Hartline (1940) E5 As EARRA T. HATA ET aR 
H H EPR AGS Et AJEA E AY K = 

[6] 看 来 权 值 共享 技术 最 早 在 Ramelhar et al. (1986b) HAEE. 

7] 这 里 给 出 的 历史 注释 大 部 分 { 但 不 是 伴 部) 基于 下 列 资 料 :《T)Saarinen et al. (1992) AC 
ee; (2)Rall (1990) WIEST; (3) Widrow and Lehr (1990) AU CEE; (4) Cowan (1990) 以 政 
Cowan and Sharp (1988) 的 文 草 ; (5) Grossberg (1988c) 的 文章 ; (6) 关 于 神经 计算 的 两 卷 
P ( Anderson et al., 1990; Anderson and Rosenfeld, 1988): (7 ) Selfridge et al. (1988) M] Fi 
W: €8) von Neumann 天 于 计算 和 计算 机 理论 的 论文 集 {Aspray and Burks, 1986); (9) 
Arbib (1995 ) R HY AoC AO FHS Pt EASED; (10) Russell and Norvig (1995) 的 第 1 章 ; 
(11)Taylor (1997) FAE, 


“J 


神经 元 模型 
1.1 一 个 logistic 本 数 的 例子 定义 为 


l 
l + expl 一 ar) 


CAMA OA 1。 证 明 它 关于 v 的 导数 由 
SP = ag(p)[1 - ov) 


综 出 。 这 个 导数 在 原点 的 值 是 多 少 ? 
1.2 一 个 奇 sigmoid AE LA 


pis) = 


l 一 expl 一 av ) E tanh{ S”) 


1+ expl- av) | 
其 中 tanh 代表 双 曲 正切 。 这 第 二 个 sigmoid PAAR SAY — 1 F041, EHR o( WKF 的 导 
3 h 


olv) = 


a = ot -o(v)] 


给 出 。 这 个 导数 在 原点 的 值 是 多 少 ? 假设 倾斜 参数 a 无 穷 大 ，w(w) 的 结果 是 什么 形式 ? 
1.3 另外 一 个 奇 sigmoid MATERA sigmoid: 





plv) = = z 
+y 
它 的 极限 值 为 -1 和 +1。 证 明 它 关于 o 的 导数 由 
do _ glu) 
dy — 
给 出 。 这 个 导数 在 原点 的 值 是 多 少 ? 
L.4 AFR PS a ae. 
[ F x 
(i) gv) = -元 | exp - 5) a 


(iple) = = tan” (v) 
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-Æ = 3] 


ERE A tt ZA BR AL sigmoid A AEESRK. GREK RET? 
1.5 在 问题 1.1 至 问题 1.4 的 五 个 sigmoid AAT APEE E R HS) od pe PR? HE A 
的 答案 的 正确 性 。 
1.6 考虑 图 1-26 rR Ue PERI AR ole). Pe) 
(a) Gh oo HF vo 的 函数 公式 。 | 
(ba a MAB O0, oo SHAT ata? 
1.7 大 于 图 1-27 Bras i qe FE PR oe ) \ 
“Jil t6, -05a 0 05a 





1.8 -一 个 神经 元 具有 问题 1,1 的 logistic RGE SLY 图 ] 26 
激活 图 数 plo), HF o ESE ey PRR IT BR SA a 可 bis 


WT 2 Soap. Xe, o An 为 作用 于 神经 元 源 节点 的 输 
AAS, b RABE. AT Ra AL, RI HRI 
倾 糙 参数 a 到 诱导 局 部 域 w， 写 成 


OA fol PAR A ke), cn. cy oe 产生 和 以 前 一 样 的 
fae? 证明 你 的 回答 的 正确 性 。 

1.9 神经 元 / 从 其 他 四 个 神经 元 接受 输入 ， 它 们 的 
活动 性 级 别 为 10，-20. 4 和 -2。 神 经 元 的 每 个 罕 触 
权 值 分 别 为 0.8，0.2，- 1.0 和 -0.9。 计 算 下 列 丙 种 情况 下 神经 元 i 的 输出 : 

(a) 神 经 元 是 线性 的 。 

(中 ) 神 经 元 由 McCulloch-Pitts 模型 表示 。 
假设 神经 元 的 偏 置 为 0。 

1.10 对 基于 logistic 图 数 


ply) = 





| 

gle) = ee ae 
的 神经 元 模型 重复 问题 1.9。 

1.11 (a) 证 明神 经 元 的 McCulloch-Pitts 形式 模型 可 由 sigmoid 神经 元 通 近 ( 即 利用 具有 非 
ft AMO ABABA BY sigmoid 激活 函数 的 神经 元 )，, 

(tb) 证 明 线 性 神经 元 可 由 其 有 很 小 突 触 权 值 的 sigmoid 神经 元 有 逼近。 
网 络 结构 

1.12 一 个 全 连接 的 前 局 网 络 具 有 10 个 源 节点 ，2 个 隐 层 ， 一 个 隐 层 有 4 个 神经 元 ， 田 
一 个 有 3 个 神经 元 ， 以 及 1 个 输出 神经 元 。 构 造 这 个 网 络 的 结构 图 。 

1.13 (a) 图 1-28 表示 一 个 22-2-1 BR R BHE SmE AR w(') 表 未 logistic AX. 
写 出 由 这 个 网 络 定 六 的 输入 输出 映射 . 

(hb 假设 图 1-28 信和 号 流 图 的 输出 神经 元 运行 在 它 的 线性 区 域 。 写 出 由 这 个 网 络 定 义 的 输 
Ait LH BRT 

1.14 图 1-28 AYR A te ee me. BES — Re A MAREA ACR BEB 
为 -1 和 +1， 第 二 隐 层 的 项 和 底 神 经 元 的 偏 置 分 别 为 +1 和 -2。 写 出 由 这 个 网 络 定义 输入 
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5 $i} 3 
P) 
一 3 
6 


图 1-28 


输出 映射 的 新 形式 。 

1.15 考虑 一 个 多 层 前 馈 网 络 ， 它 所 有 的 神经 元 运行 在 它们 的 线性 区 域 。 证 明 这 样 的 网 
oS Ot LE a a ZS 

1.16 构造 一 个 全 连接 的 递归 网 络 ， 它 其 存 5 个 神 
“aoc, ARA A Re fet. 

1.17 FE 1-29 Fea BT FH G 28 ft 
这 两 个 变量 分 别 定 多 顶部 和 底部 神经 元 的 输出 。 这 个 
FBR a eb? 

1.18 HI30kmBRA A RP Sa 
Ia Sith. SwWARARZTH AT oS 
ABA TERE I EAH 

1.19 —PRIUM AA 3 PRP, 2 PRE 
经 元 和 4 个 输出 神经 丘 。 攀 造 描 述 这 样 -- 个 网 络 的 第 
构图 。 
知识 表示 

1.20 ”一 个 有 用 的 预 处 理 形 式 证 基于 由 差分 方程 (用 于 实数 值 数据 ) 

yin) = myin = 1) + waytn — 2) +e + wr tno MD) 4+ vlan) 
HRE A mh (ARW, HE yi RRNA, oe ASS RAM ET SNARE 
FHA AEE AR. ow). we... ty 是 AR 模型 的 系数 ， 而 A 为 模型 阶 数 。 证 明 利 用 这 个 模型 提供 两 
种 形式 的 几何 不 变性 ; (a) 尺度 大 小 ; (5) 时 间 平 称 。 在 神经 网 络 中 起 样 利 用 这 两 种 不 溉 性 ? 

1.21 令 x 为 输入 向量 ，sla,x) 为 依赖 于 参数 a MEAT xO SRE ST, CEMT E 
求 : 

+ s(O,x) =x 

a sla n EF a A} fa 

Hi FARE Amas a, x)/ Jal Simard et al., 1992). 

Rit x RRA, oBRHBSR. O a IEDERE REHA W? m e Ie 
像 的 旋转 是 局 部 不 变 的 ， 为 什么 ? 
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2.1 简介 


对 于 神经 网 络 具 有 首要 意义 的 性 质 是 网 络 能 从 环境 中 学 习 的 能 方 ， 并 通过 学 刁 改 善 具 行 
为 。 对 行为 的 改善 是 随时 间 依 据 某 一 规定 的 度量 进行 的 。 神 经 网 络 通 过 施加 于 上 它 的 突 触 权 仁 
和 偏 冒 水平 的 调节 的 交互 过 程 来 学 翌 它 的 环境 。 理 想 情况 下 ， 神 经 网 络 在 每 一 次 重复 学 习 过 
程 后 对 它 的 环境 便 有 更 多 的 了 解 。 

有 过 多 的 与 "学习" 这 个 概念 相 联 系 的 行为 ， 以 至 不 能 以 精确 的 方式 对 其 定义 。 市 ,学 
可 过 程 是 这 样 一 种 观点 问题 ， 使 得 在 对 这 个 术语 的 精确 定义 上 很 难 达 成 一 致 。 比 如 ， 心 理学 
家 眼中 的 学 习 与 课堂 中 的 学 习 是 截然 不 同 的 。 需 认识 我 们 的 特殊 兴趣 在 于 神经 网 络 ， 我 们 使 
用 一 个 从 Mendel and MeClaren(1970) 修 改过 的 一 个 关于 学 习 的 定 头 。 

我 们 在 神经 网 络 的 谊 景 中 定义 学 习 如 下 : 

学 习 是 一 个 过 程 ， 通 过 这 个 过 程 神经 网 络 的 自由 参数 在 其 谋 入 的 环境 的 激励 过 程 之 下 得 
到 调节 。 学 习 的 类 型 由 参数 改变 的 方式 决定 . 


这 个 学 习 过 程 的 定 尽 隐 会 着 如 下 的 事实 ， 

1. 神经 网 络 稚 一 个 环境 所 激励 。 

2. 作为 这 个 激励 的 结果 ， 神 经 网 络 在 它 的 目 由 参数 上 发 生变 化 。 

3. 由 于 神经 网 络 内 部 结构 的 改变 而 以 新 的 方式 响应 环境 。 

建议 解决 学 习 问 题 的 一 个 怡 当 定义 的 规则 集合 称 作 学 习 算 法 ”。 就 像 人 们 预料 的 那样 ， 
对 于 神经 网 络 的 设计 没有 惟一 的 学 习 算法 。 然 而 ， 我 们 有 由 不 同学 习 算 法 表示 的 一 组 工具 ， 
每 一 个 有 它 自己 的 优势 。 基 本 上 ， 学 习 算 法 在 其 对 神经 元 的 帘 触 权 值 的 调节 方式 各 不 相同 。 
要 考虑 的 另 一 方面 是 由 一 组 相互 连接 的 神经 元 组 成 神经 网 络 { 学 习 栅 厚 ) 与 其 环境 联系 的 方 
式 。 从 后 一 个 方面 说 ， 我 们 提 到 学 习 范 例 是 指 神 经 网 络 运 行 于 其 中 的 环境 的 一 个 柜 奶 。 


PHAR 


本 章 由 四 个 相互 联系 的 部 分 组 成 。 第 一 部 分 包括 第 2.2 节 到 2.6 节 ， 我 们 讨论 五 个 基本 
的 学 习 算 法 : 误差 - 收 正 学 习 ， 基 于 记忆 的 学 习 ，Hebb 学 习 ， 竞 争 学 习 和 Boltzmann 7) 。 
误差 修正 学 习 植 根 于 最 优 滤波 。 基 于 记忆 的 学 习 通 过 明确 地 记 往 训练 数据 来 进行 。Hebb £ 
习 和 竞争 学 习 都 是 受 了 神经 生物 学 上 的 考虑 的 启发 。Boltzmamm 学 习 有 所 不 同 ， 因 为 它 是 建 
立 在 从 统计 学 力学 信 来 的 思想 基础 上 。 

本 章 的 第 二 部 分 探讨 学 习 范 例 。2.7 节 讨 论 信任 赋值 问题 ， 它 是 学 习 过 程 的 基础 。2.8 
节 和 2.9 节 概 述 两 个 基本 学 习 范 例 : (1) 有 教师 学 习 ，(2) 无 教师 学 林 。 

本 章 的 第 三 部 分 包括 2.10 节 到 2.12 节 ， 考 察 学 习 任务 、 记 忆 和 目 适 应 的 问题 。 

本 章 的 最 后 部 分 包括 2.13 节 到 2.15 节 ， 处 理学 习 过 程 的 概率 和 统计 方面 。2.13 六 讨论 
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REHA. 2.14 节 讨 论 基 于 YC AER MIS oe. VC 维 数 据 慌 了 对 机 器 能 蕊 
的 一 个 测量 方法 。2.14 节 介 绍 男 一 个 重要 概念 ， 可 能 近似 正确 (PAC) 学 习 ， 它 为 学 习 过 程 提 
供 一 个 保守 的 异型。 

AN EE HE 2.16 铂 中 用 一 些 最 后 的 评述 作为 结束 ， 


2.2 误差 修正 学 习 


YT AHA- REAA, FBAR 2-1a 所 示 由 一 个 神经 元 构成 前 馈 神 经 网 络 输 出 
层 的 惟一 计算 节点 的 简单 情况 ， 神 经 元 大 被 一 层 或 多 层 隐 藏 神经 元 产生 的 信号 向 量 xn OR 
到， 这 些 隐 减 神经 元 自身 由 作用 于 神经 网 络 的 源 节 点 (也 就 是 输 人 层 ) 的 输 人 向 量 驱 动 。 和 参数 
n 表 小 离散 时 间 ， 或 者 更 确切 地 说 ， 是 调节 神经 元 的 突 触 权 值 的 交互 过 程 的 时 间 步 ,神经 
元 天 的 输出 信号 由 和 (na 表示。 这 个 描述 神经 网 络 惟一 输出 的 输出 信号 与 由 dyn) ERRA 
望 响应 或 目标 输出 比较 。 由 此 产生 由 e, Cn den AES, HEM, RNG 
eln) = dn) — yn) (2,1) 
REIS e.(n Kaai, RAAB TRAR EMER. IE 
Bel 77 BEA WI — APPR RA he a Ma aS oy, Cn) a dé, Cn SUES DK — A et 
AOA BT oh SBE aE RARE n REA, EC n MEHR S @, fm) 定义 旭 下 ， 


Eln) = Sei (n) (2.3) 


WME, En ARSE SAB A, DOMMES k WO SS hE eel a AO ee 
下 去 ， 直 到 系统 达到 稳定 状态 ( 即 突 触 权 值 基 本 稳定 下 来 )。 这 村， 学 习 过 程 终 止 。 

在 这里， 描述 的 学 习 过 程 如 然 应 被 称 为 误差 -修正 学 习 。 特 别 ， 对 代价 函数 和 (n) 的 最 
小 化 导致 了 通常 被 称 作 增 量 规则 或 Widrow-Hof 规则 的 学 习 规 则 ， 规 则 的 命名 是 为 了 纪念 它 
的 发 明 者 (Widrow and Hoff, 1960}. 4 ws(n) 表 示 在 第 n AP, BRS et x(n) WY xR) 
TERAH k RAB. HR, EF n 时 间 步 作用 于 突 触 权 值 的 调节 量 
Aw, (ne XRF 

Aw,;(n) = ne, (n) x, (Cn) (2.3) 

这 里 站 是 一 个 正 的 和 常量， 它 决 定 学 习 过 程 中 从 一 步 到 另 一 步 时 的 学 习 率 。 所 以 ， 我 们 自然 而 
MAHER n 为 学 习 率 参数 ,换言之 ， 增 量规 则 可 以 表述 为 ; 

作用 于 神经 元 突 触 权 值 的 调节 量 正 比 于 本 次 学 习 中 误差 信和 号 与 突 触 的 输入 信和 号 的 乘积 ， 


牢记 这 里 表述 的 增 量 规则 假定 误差 信号 是 直接 可 测量 的 。 为 了 这 样 的 测量 是 可 行 的 ， 我 
们 显然 需要 与 神经 元 直接 相连 的 外 部 源 提供 期 望 响应 。 换 言 之 ， 神 经 元 对 外 部 世界 是 
可 见 的 ， 如 图 2- 1a 所 示 。 从 该 图 中 还 可 以 看 到 ,误差 - 修正 学 习 实 际 上 带 有 局 部 性 质 。 这 
仪 仅 是 说 由 增 量 规则 计算 的 突 触 调节 局 部 于 神经 元 大 周围 。 

EIR RAD Aw, (na, ADU wy 的 更 新 值 由 

wyln +1) = m(n) + Aw, (n) (2.4) 

确定 。 实 际 上 ，ws(n) 和 wy Cn + IEW ARMA AA w, Ha, MITAN 
度 ， 我 们 也 可 写 为 : 
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(nn) =z [wln +1) ] (2.5) 
这 里 z” 是 单元 GREER WLR, 2 RRP A 
Z 2-1ib 用 信号 流 图 表示 误差 - 修正 的 学 习 过 程 ， 其 焦点 集中 在 神经 元 天 周围 的 活动 。 
答 入 信号 x, 和 神经 元 的 诱导 局 部 域 w 分 别称 作 神 经 元 的 第 i 个 突 触 的 前 突 扔 信号 和 后 突 
Rese, MWA 2-1h 百出 误差 -修正 学 习 是 闭环 反馈 系统 的 一 个 例子 。 由 控制 论 我 们 知道 这 种 
系统 的 称 定 性 由 构成 系统 的 反馈 环 路 的 参数 识 定 。 在 这 里 ， 我 们 仅 有 一 个 单一 反馈 环 路 ， 具 
有 特别 愿 义 的 参数 之 一 是 学 避 率 参数 n 因此 ， 咎 细 选 取 妆 以 取得 重复 学 局 过 程 的 稳定 性 或 
肛 伐 性 是 很 重要 的 。 对 的 选择 对 学 习 过 程 的 准确 性 及 其 他 方面 也 有 深刻 的 影响 。 简 首 之 ， 
学 习 率 参数 在 实际 决定 误差 - 修正 学 习性 能 时 起 着 关键 作用 。 





多 层 前 馈 网 络 
a) HPSS hd ATER, (MEU T MP eo 


t(n) 





b) far th Bl Zeon SL 
图 2-1 RÆ -BFAR 
ike -修正 学 习 将 在 第 3 全 和 第 4 章 详细 论述 ， 第 4 章 讨 论 单 层 前 馈 网 络 ， 第 4 童 详细 
VE De ae Fe ill tot A o 


2.3 基于 记忆 的 学 习 

在 基于 记忆 的 学 习 中 ， 印 有 (或 大 部 分 ) 以 往 的 经 验 被 吕 式 地 存储 到 让 确 分 类 的 输 人 人 - 输 
BEM a dA 的 大 量 记忆 中 ， 这 里 x 表示 输入 向 量 ，d 表示 对 应 的 期 望 响应 。 不 失 一 
般 件 ， 我 们 跟 制 期 望 响应 为 一 个 标量 。 例 如 ， 在 二 值 模式 分 类 中 ， 考 虑 有 两 个 分 别 表 示 为 多 
Re, 的 类 别 / 假 设 。 在 这 个 例子 中 ， 期 望 响应 d, HR, 取 值 0{ 或 -1)， 对 类 %, 取 值 1。 当 D 
需要 对 测试 癌 量 x, (以 前 未 见 过 } 进 行 分 类 时 ， 算 法 通过 提取 并 分 析 x 的 局 部 分 域 中 的 训 
练 数据 进行 响应 。 

所 有 基于 记忆 的 学 习 算法 包括 两 个 重要 的 组 成 部 分 ， 
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*。 用 于 定义 测试 问 莉 % 的 局 部 分 域 的 准则 。 
© 用 于 x 的 局 部 邻 域 中 的 训练 实例 的 学 习 规 则 。 
算法 随 这 两 个 组 成 部 分 的 不 同 奉 不 同 : 
在 一 个 简单 而 有 效 的 称 作 最 近邻 规则 ”的 基于 记忆 的 学 习 类 型 中 ， 局 部 邻 域 被 定义 为 测 
试问 量 x, 的 直接 邻 域 的 训练 实例 。 特 别 ， 向 量 
My © IN, Nyt, Xx} (2.6) 


ERTE Xen 的 最 近邻 ， 如 村 
min d(x, Xa) = BCX y Xia) (2.7) 

iH, d(x,.x,., ele x, Al x, RL Pe. SRP RRR, Ale 
xy RIGA BW. EP CHA eA SC Bh EAS 4S Hh 

Cover and Jiart(1967) 形 式 地 研究 了 作为 一 个 模式 分 类 工具 的 最 近邻 虎 则 。 在 那里 提出 的 
分 析 基 二 -两 个 假设 : 

© 分 类 实例 (x; ,di) 按 照 壬 例 (x, 4d) 的 联合 概率 分 布 是 独立 同 分 布 的 (iid)。 

- 样本 大 小 N EARRA. 

在 这 两 个 盆 斌 下 ， 可 以 证 明 ， 由 最 近邻 规则 引起 的 分 类 误 共 概 池 被 限制 在 贝 叶 斯 误差 概 
兴 ( 也 融 古 上 记 有 判定 规则 中 的 最 小 话 差 概率) 的 两 借以 上 。 由 叶 斯 误差 慨 率 在 第 3 章 讨 论 。 在 
这 个 意 儿 上 ， 可 以 说 ， 无 限 太 小 的 训练 集中 有 一 半分 类 信息 包含 在 最 近邻 中 ， 这 是 今 人 惊奇 


的 结果 ， 
最 近邻 分 类 器 的 一 个 变种 是 大- 最 近邻 分 类 器 ， 它 操 0 9 
Ea F: ? n 
， 对 于 某 一 整数 不 ， 确 定 与 测试 向 量 x 最 邻近 的 ~" i 
k 个 类 别 模式 。 D oy 
+5 x, AY ke SATS HP A HEAR AE BILGE) «Oller “TINT 
分 配给 x,_, MALFARI) si A 
这 样 , k- 最 近邻 分 类 器 的 作用 就 像 一 个 平 玖 仪器 。 特 1 
别 的 ， 对 于 上 = 3, -最近 分 分 类 器 鉴别 单个 的 例外 2.2 分 类 的 例外 
(outlier), ， 如 图 2-2 Blas. 一 个 例外 是 一 个 观察 ， 这 个 ”虚线 圆圈 里 而 的 区 域 包 括 网 个 属于 分 类 1 
观察 对 于 我 们 感 兴趣 的 指定 模型 是 异常 大 。 a Oe ener nh oe 


WFR pew. H k3, 天 -最 近邻 
aA RE UA 4 
在 第 5 Be Jitie H | 重要 BRR AE 42 [5] BE pK BY ALG ROA ef Peewee yA LAAN 


28 AE Fit 4p ee EA PARR 
2.4 Hebb 学 习 


学 习 的 Hebb 假设 是 所 有 学 习 规 则 中 最 悠久 最 着 名 的 ; 它 是 为 了 纪念 神经 心理 学 家 Hebb 
(1949) 而 命名 的 。 下 面 一 段 引 自 Hebb 的 《行为 的 组 织 》 一 书 (1949.,p.62). 

Gm A nA E A BIA PI RBHR EARS REN, RARER 
新 际 代 谢 变 化 在 一 外 或 两 小 细胞 中 上 发生， 这 使 得 和 作为 激励 下 的 细胞 中 的 一 个 的 效率 被 增 
k. 
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Hebb 提出 将 这 个 变化 作为 联想 学 习 的 基础 (在 细胞 水 平 上 ) ， 其 结果 是 按 空 间 分 布 的 ”神经 细 
胞 集合 "的 活动 模式 的 持续 修改 。 

这 个 陈述 是 在 神经 生物 学 的 背景 中 做 出 的 。 我 们 可 以 将 之 扩充 并 重 述 为 二 分 规则 (Stent， 
1973; Changeux and Danchin, 1976): 

l. 如 果 在 突击 (连接 ) 每 一 边 的 两 沾 神 经 元 被 同时 { 即 同步 ) 激 活 ， 那 么 那个 突 甬 的 强度 
被 选择 性 地 增强 . 

2, 如 果 在 突 角 每 一 边 的 两 个 神经 元 被 异步 激活 ， 那 么 那个 突 触 被 选择 性 地 减弱 或 消除 ， 

这 样 的 罕 触 被 称 作 Hebb Afh. (BUAI Hebb 规则 不 包括 第 一 部 分 }。 更 确切 地 说 ， 我 
们 定义 Hebb 突 触 为 这 样 的 一 个 突 触 ， 它 使 用 一 个 依赖 时 间 的 、 高 度 局 部 的 和 强烈 交互 的 机 
制 来 提高 突 触 效 闵 作为 前 突 触 和 后 突 触 活动 间 的 相互 美 系 的 一 个 函数 。 从 这 个 定 闵 ， 我 们 可 
以 得 出 下 面 标志 Hebb 突 触 特征 的 4 个 重要 机 制 ( 特 性 ): 

1, 时 间 依 赖 机 制 。 这 一 机 制 是 指 这 样 一 个 事实 ，Hebb 突 触 中 的 修改 取决 于 前 突 触 和 后 
突 触 信号 出 现 的 确切 时 间 。 

2, 局 部 机 制 。 突 触 在 其 本 质 于 是 传输 的 场所 ， 其 中 信息 - 承载 信和 号 {表示 了 前 突 触 和 后 
窒 触 单元 中 正在 进行 的 活动 ) 处 于 时 空 的 邻近 。Hebb 罕 触 利用 这 个 局 部 可 用 信息 产生 由 输入 
确定 的 局 部 帘 触 修改 。 

3. LAMB. Hebb 突 角 中 改变 的 发 生 取 决 于 突 触 两 边 的 信号 。 也 就 是 说 ，Hehb 学 习 的 
方式 ， 和 在 我 们 无 法 从 这 两 个 活动 中 任意 一 个 目 身 作出 预测 的 意 交 上 说 ， 是 取决 于 前 帘 触 和 后 
RME SAHR REZA”. HARAMA Hn AEA E EM E ERRELE RT 

4. 关联 或 相关 机 制 。 对 Hebb FIREM AR RE ERE MAE A ESR EAB a SB 
SAAR. TE, IRRIPAR., MARAG RAE S BARREA R E 
DEA Se ERE. TERE HFC MRIN, Hebb 突 触 又 被 称 作 关联 突 般 。 在 对 Hebb 学 习 假 
设 的 另 一 种 解释 中 ， 我 们 可 以 从 统计 学 的 角度 考虑 作为 Hebb 罕 触 特征 的 交互 机 制 。 特 草 ， 
前 罕 触 和 后 帘 触 信号 在 时 间 上 的 相关 皱 认 为 狐 定 着 罕 触 的 变化 。 所 以 ，Hehb 究 触 也 被 称 作 
ARK Ae, 相关 确实 荐 学 习 的 基础 (Eggenmnont,1990) 。 


突 触 的 增强 和 抑制 


这 里 表述 的 Hebb 突 触 定义 不 包括 那些 可 能 导致 连接 着 一 对 神经 元 的 突 甬 减弱 的 附加 过 
fe. HES, 我 们 可 以 通过 认识 正 相 关 活 动 导致 括 触 增强 各 非 相 关 或 全 相关 活动 导致 突 触 减 加 
来 推广 Hebb 修改 的 概念 (Stent,1973;}。 突 触 搞 制 也 可 以 是 非 交 互 类 型 的 。 特 别 是 ， 突 艇 减 蜀 
的 交互 条 件 可 能 仅仅 是 前 突 触 或 后 突 触 活 动 的 不 一 改 。 

我 们 更 进一步 ， 将 突 触 修 改 分 为 Hebb 式 、 反 - Hebb AFE - Hebb A (Palm, 1982)。 按 
照 这 种 划分 ，Hebb 突 触 的 强度 因为 下 相关 的 前 究 触 和 后 突 触 信和 号 而 增加 ， 以 及 当 信 和 号 成 者 
是 不 相关 或 者 是 希 相 关 的 而 降低 强度 。 相 反 ， 反 - Hebb 突 触 由 正 相 关 的 前 突 触 和 后 突 触 信 
号 而 减弱 ， 因 负 相 关 的 信号 而 增强 。 然 而 ， 在 Hebb 突 触 和 反 - Hebb KAMAP, IRA 
率 的 修改 依 掉 于 在 本 质 上 是 依赖 时 间 的 、 高 度 局 部 的 和 强烈 交互 的 机 制 。 在 那 种 意 X 交 下 ， 反 
Hebb 宪 甬 的 性 质 仍然 是 Hebb 式 的 ， 尽 管 不 是 在 功能 上 。 男 一 方面 ， 非 - Hebb RTEA 
Hebb 机 制 中 的 任何 一 种 。 
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Hebb 修改 的 数学 模型 


为 了 从 数学 角度 曾 明 Hebb 学 习 ， 考 虑 神经 元 天 的 ' -个 突击 权 全 2 IA x, Aly, R 
本 前 突 甬 各 后 突 触 信和 写 。 在 时 间 步 n FAP w, 的 调整 用 一 般 化 形式 如 下 : 
Awin) = Fly,(n).a,(n))} (2.8) 
表示 ， 其 中 FEO, Ven AAR RA S PRA. fas x, (nA vy, Cn Zea SE A E 
IME. 2h (2.8) RITA SAA, ATi See eR ASE Hebb 形式 。 下面 ， 我 们 考虑 两 种 
这 样 的 形式 : 
Hebb it Hebb 学 习 的 最 简单 形式 描述 为 
Aw, (2) = ny,(n)a,(n)} (2.9) 
县 中 站 和 是 总 定 学 习 率 的 正 值 常量 。 式 {2.9) 
请 楚 地 强调 了 Hebb Æ tK HI EHE: E _- Hebb 4B 
有 时 被 称 作 活 动产 生 规则 。 图 2-3 p EH i 
HRERL (2.9) PEE bk Aw, 随 输 出 sa = 7 
fas Je SARIS) y, 改变 的 图 形 表 示 ， 从 (GLE = n(x, - E) 
这 个 表示 中 ,我 们 看 出 重复 使 用 输入 信号 BJ SABRE 


Uy 
(前 突击 活动 )% 将 导致 的 x 增长 以 及 由 此 We 后 突然 活动 
引发 的 指数 增长 ， 这 将 使 突 触 连接 进入 饮 i 


和 状态 。 这 时 ， 没 有 任何 依 息 存 情 在 突 触 =r 
中 并 且 失 去 选择 性 。 ai ii 

协 方差 假设 ”克服 Hebb 假设 限制 的 
途径 之 一 是 使 用 Sejnowski(1977a,b)3| 人 的 
协 方差 假说。 本 这 个 假说 里 ， 式 (2.9) 中 前 图 2.3 Hebb 假设 和 协 方 差 候 设 的 图 示 
FE ak A Jey R AE AS a A A fk ASE AE 
信号 与 它们 各 自 的 在 一 定时 间 间 陋 上 的 期 望 均值 的 信物 量 所 代替 。 今 二 和 7 RAAT AAR x 
和 后 突 触 信号 y, 的 时 间 - 均值 。 按 照 协 方差 假说 ， 作 用 于 突 触 权 值 w, 的 调整 定义 为 

Aw, = nlx, -= lly- ¥} (2.10) 

其 中 yn RUBS, « Aly MERA RRA, CR Ee A. 
特刊 ， 协 方差 假设 考虑 了 下 述 方面 : 

。 West TARP MARA, 24x, =x 或 y= 了 时 到 达 。 

- 对 突 甬 加 强 { 即 增加 突 触 强度 ) 和 突 触 抽 制 ( 即 降低 突 般 强度 ) 两 者 的 预测 。 

图 2-3 说 明 Hebb 假设 和 协 方差 很 设 之 间 的 差别 。 在 两 种 情况 下 ，Aw, 对 的 依赖 是 线 
性 的 ; 然而 ， 在 Hebb 假设 中 与 y, 轴 的 相交 是 在 原点 ， 而 在 协 方差 假设 中 是 在 v = y 处 ， 

我 们 从 式 (2.10) 得 出 如 下 重要 观察 ， 

1. 如 末 有 足够 的 前 突 和 触 和 后 突 触 活动 程度 ， 也 就 是 同时 满足 条 件 x, > ly, > 7, MA 
RUAN (AL ww 得 钙 和 加强。 

2. 如 末 至 少 满足 下 条 件 任意 之 一 ， 则 突 触 权 值 被 减弱 : 

© EZERRE SE ARTS y, <7) 的 条 件 下 前 突 触 激 活 ( 即 > x)。 
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。 在 缺乏 足够 的 前 突 触 激活 ( 即 x, < 天) 的 条 件 下 后 突 触 激活 ( 即 yy > 9) 

这 种 行为 可 以 被 认为 是 输入 模式 问 时 间 竞 争 的 一 种 形式 。 

在 称 作 海马 区 的 脑 区 域 担 供 了 对 Hebb 学 习 有 力 的 生理 学 证 据 中。 海马 区 在 学 习 或 记忆 
的 菜 些 方面 起 着 重要 作用 ， 这 种 生 埋 学 证 措 使 得 Hebb 学 习 出 具 吸 引力 . 


2.5 RASS) 


MAEL, FER PAO, MRS PIS RK Ep RRR CS 
兴 ) 和 在 基于 Hebb 学 习 的 神经 元 网 络 里 ， 若 二 输出 神经 元 可 能 同时 处 于 激 笑 状态 ， 而 在 竞争 
字 习 由 ， 在 任意 时 刻 只 有 一 个 输出 神经 元 是 激活 的 。 目 是 这 个 特性 使 竞争 学 习 高 度 适合 于 发 
现 统计 上 的 突出 特征 ， 这 些 特征 可 以 用 来 分类 输入 模式 的 集合 ，。 
对 于 学 争 学 习 规 则 ， 有 二 个 基本 无 素 (Rumelhart and Zipser, 1985) ; 
一 个 神经 多 集 分 ， 这 些 神 经 元 除了 一 些 随机 分 布 的 突 触 权 值 之 外 是 完全 相同 的 ， 并 
且 由 于 突 角 权 值 的 不 同 南 对 一 个 给 定 的 输入 模式 集合 有 不 同 的 响应 。 

* 对 每 个 神经 元 的 强度 加 上 的 限制 

* 允许 神经 元 为 吗 应 一 个 给 定 输 人 子 集 的 权利 而 竞争 的 机 制 ， 从 而 使 得 每 次 只 有 一 个 
输出 神经 元 或 者 每 组 只 有 一 个 神经 元 是 激活 的 {( 即 *“ 开 ”)。， 竞 争 获胜 神经 元 被 称 为 胜 
A & FF ( winner-takes-all ) ## 44-7. 5 

Alt, PSS oon ace A ARER ER RRS. ER AA R] 
类 别 输 入 模式 的 特征 探测 器 。 

在 最 简单 的 竞争 学 习 形式 中 ， 神 经 网 络 有 单一 的 一 层 
答 出 神经 元 ， 其 中 的 每 一 个 部 与 输入 节点 完全 连接 。 网 络 
可 以 包 合 神经 元 的 反馈 连接 ， 如 图 2-4 所 示 。 在 这 里 描绘 
的 网 络 结 构 中 ， 及 馈 连 接 执行 侧 向 抑制 车 ， 每 个 神经 元 都 
工 图 抑制 与 其 侧 向 连接 的 神经 元 。 相 上 及 ， 图 2-4 的 网 络 结 
构 中 的 所 有 前 馈 突 触 连接 部 是 激活 的 (兴奋 的 )。 

对 于 一 个 蓝 想 成 为 获胜 神经 元 的 神经 元 kh， 对 于 指定 
ARIN 的话 导 局 部 域 mw 必需 是 网 络 结构 中 所 有 神经 
元 中 最 大 的 。 获 胜 神经 元 上 的 输出 信号 n 被 置 为 1; 竞争 ”图 2-4 -个 简单 竞 第 学 习 网 络 


失败 的 所 有 神经 元 的 输出 信号 被 性 为 0。 这 样 ， 我 们 有 ”的 笔 构图 ， 它 具 有 从 源 节 点 到 神 
经 元 的 前 馈 t{ 兴奋 的 ) 连 接 和 神 尝 


人 名 全 > 二 对 于 所 有 站 了 天天 (> 11) 元 之 间 的 侧 向 (抑制 的 ) 连 接 { 侧 向 





0, 否则 连接 由 空心 箭头 标示 出 ) 
AP, BEFRIER n 表示 结合 所 有 到 达 神 经 元 上 的 脏 向 
和 上 反 僻 输入 的 动作 。 


量 的 突 触 权 值 ( 即 所 有 突 角 权 值 都 是 目的 )， 权 值 分 布 在 它 的 输入 节点 之 中 ; 也 就 是 

Dwy =l, 对 于 所 有 (2.12) 
PR kar BBE TG BERG FS A EE ATR ABE A EGE, UBC — A 
标定 输入 模式 不 响应 ， 那 么 没有 学 习 发 生 在 那个 神经 元 上 。 如 果 一 个 特定 神经 元 赢得 了 竞 
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FP, RE BE ACT eR EY SAR, PRAMAS a FD a el 
RRA DAL. Ea eS FAM, FER RAPA wo FS Aw, SLA 
on m 一 ) WOR APES IE A a PRN 
= 0 ,如 果 神 经 元 竞争 失败 
共 中 了 是 学 习 率 参数 。 这 个 规则 具有 将 获胜 神经 元 天 的 罕 触 权 值 向 量 w, 向 输入 模式 移动 
[so 的 整体 效果 。 

我 们 可 以 使 用 图 2-5 中 描绘 的 儿 何 类 比 来 说 明 竞 争 学 当 的 本 质 (Rumelhart and Zipser, 
1985)。 眉 定 每 个 输入 模式 {向量 )x 具有 某 一 常量 欧 几 里 德 长 度 , 使 得 我 们 可 以 将 它 看 作 是 
N - 维 单位 球 上 的 - -个 点 ， 其 中 ON BAT AKA. N 也 表示 每 个 突 触 权 值 向 量 w, 的 维 
BX HE - 步 假 定 网 络 中 所 由 神经 元 都 被 限定 共有 相等 的 欧 几 里 德 长 度 ( 范 数 )， 表 示 如 下 : 

Dw, = 1, 对 所 有 (2.14) 


当 兴 触 权 人 被 适当 洪 定 ， 它 们 就 成 为 落 人 同 -N - SERRA, AA 2-5a 中 我 们 
显示 了 二 个 用 点 表示 的 刺激 模式 的 自然 分 组 ( 艇 )。 这 个 图 也 包括 一 个 可 能 的 网 络 初始 状态 (用 
XER), CERET ZA. K 2- 5b 显示 网 络 作为 使 用 竞争 学 习 结 果 的 一 个 典型 的 终止 
状态 。 特 别 ， 每 个 输 和 人 神经 元 通过 将 其 突 触 权 值 移 向 驴 的 重心 而 发 现 这 以 输入 模式 的 得 
(Rumelhart and Zipser, 1985;Hertz et al. ,1991)。 这 个 峡 说 明了 神经 网 络 通过 竞争 学 习 进 行 聚 类 的 
能 力 。 然 而 ， 为 了 这 一 功能 能 以 "稳定 的 "方式 执行 ， 开 始 时 输 和 人 模式 必需 落 人 充分 分 离 的 分 组 
中 。 人 否则 ， 网 络 可 能 不 稳定 ， 因 为 它 将 不 再 以 同样 的 输出 神经 元 响应 给 定 的 输 人 模式 。 


ZAI 


(2.13) 





图 2-5 SRE EA LAE, na Re A Td. 
MRE 3 PH HS rc A E 
a) 网 络 的 初始 状态 ”网 络 的 终止 状态 


2.6 Boltzmann 学 习 


为 了 纪念 Ludwig Boltzmann 147% HI Boltzmann 学 导 规 则 是 一 个 从 植 根 于 统计 力学 中 的 思 

[a] 想 推导 得 出 的 随机 学 习 算法 7 ， 基 于 Boltzmann 学 习 规 则 设计 的 神经 元 网 络 称 必 Boltzmann 机 
( Ackley et al. , 1985; Hinton and Sejnowski, 1986). 

4£ Boltzmann 机 中 ， 神 经 元 构成 递归 结构 ， 并 以 二 值 方式 运作 ， 因 为 ， 例 如 它们 要 么 处 

于 用 + 1 表示 的 " 开 状态 ， 要 人 么 处 于 用 - 1 表示 的 “ 关 " 状 态 。Bojtzmann Plh iE Ak EHR 
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M, REE AMEE Olas a9 ER oe oR EEA AS TRE, AR 
E 2- 5 a Dt (2.15) 
其 中 x, 是 神经 元 | 的 状态 ，w, 是 连接 神经 元 ; 到 神经 元 RBIN, jk 的 事实 仅仅 意味 


苟 机 笑 中 没有 一 个 神经 元 有 日 反馈。 机 器 的 运作 丰 通 过 在 学 半 过 程 某 一 步 随 机 弛 选 拌 一 个 神 
经 元 (例如 神经 元 此 )， 然 后 在 某 一 温度 了 以 概率 


<< 








l 
P(x, x, ) = Te exp( — AE,/T) (2,16) 


HARTI k MARS x, 反 转 到 状态 x， 其 中 Ak, 是 由 这 样 的 反 转 所 导致 的 能 量 改 变 { 节 机 器 
能 量 函 数 的 改 安 量 )。 注 意 ，7T 并 非 是 物理 温度 ， 而 是 第 1 章 解 释 的 伪 温 度 。 如 这 一 规则 被 
反复 使 用 ,机 颖 将 达到 热平衡 , 

Boltzmann 机 的 神经 元 分 为 两 类 功能 组 ; 哥 见 的 和 降 藏 的 。 可 见 的 神经 元 提供 网 络 和 它 
从 其 中 运作 的 坏 境 间 的 接 后 ， 人 而 隐藏 褐 经 元 总 是 自由 和 运作。 有 有 两 种 运作 模式 要 加 以 考虑 ， 

= 钳制 条 件 ， 在 这 种 情形 下 可 见 神 经 元 都 被 钳 刺 到 由 环境 次 定 的 特定 状态 。 

© 自由 送行 条件 ， 在 这 种 情形 下 所 有 神经 元 (可见 的 和 隐藏 的 ) 都 允许 自 由 运作 . 

F ph 表示 网 络 在 其 铺 制 条 件 下 神经 元 和 上 的 状态 间 的 相关 量 。 今 oi 表示 网 络 在 其 白 
由 运作 条 件 下 神经 万 7 入 的 状态 间 的 相关 量 。 两 种 相关 量 都 是 当 机 器 处 于 热平衡 时 的 所 有 
可 能 状态 的 平均 。 然后， 根据 Boltzmann 学 习 规 则 ,作用 于 从 神经 元 7 到 神经 元 下 的 罕 和 触 权 
HAJA A E 

Aw, = nlo -p,), Jk (2.17) 

Æ X (Hinton and Sejnowskji,1986)， 闪 中 省 是 学 习 率 参数 。 注 意 oy 种 pi 的 值 都 在 -1 和 和 +1 范 
EA 

第 RREI DERRE E EAE, RE H ERTE Bolizmann 机 和 其 他 
BEALL AS 


2.7 信和 在 赋值 问题 


当 人 研究 用 于 分 布 式 条 统 的 学 习 算 法 时 ， 考 虑 信任 赋值 (credit assignment), (Minsky, 1961) 
的 问题 十 有 益处 的 。 基 本 上， 人 篇 任 赋值 问题 中 将 导 敏 整体 输出 的 信任 和 责任 分 配给 每 一 个 由 
字 习 视 化 作出 的 内 部 决策 及 那些 对 整体 输出 起 作出 的 决策 的 问题 。( 信 和 任 赋值 问题 也 被 称 作 
桨 载 问题 ， 即 将 一 组 给 定 的 训练 数据 "装载 "给 网 络 的 自由 参数 。) 

ALAR STAI F. Wht A a Oe oe BK a “dL EAR A AIS EAT. He iA 
Bo, FABRA On RR AE ITE, PHS EM AEA RR oe Ed a | EI A 
情形 下 ， 我 们 可 将 信人 性 赋值 问题 分 解 为 两 个 于 问题 (Sutton, 1984) : 

L. 对 输出 到 动作 的 信任 赋值 。 这 被 称 为 时 间 和 信任 赋值 (temporal credit-assignment) 问题 ， 
因为 它 涉 及 应 获得 信任 的 动作 被 实际 采取 的 时 刻 。 

2. 对 动作 到 内 部 关 梨 的 仿 尾 赋值。 这 被 称 为 结构 信任 赋 慎 (structural credit-assigrment } |P] 
题 ， 因 为 它 涉 丰 对 系统 生成 动作 的 内 部 结构 进行 信任 赋值 。 

在 均 成 分 学 导 机 内 中 ， 当 为 了 提高 整个 系统 的 性 能 我 们 必须 精确 判定 系统 的 万 个 特定 成 
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当 学 习 机 哩 采取 很 多 动作 而 导致 某 些 输出 并 且 我 们 必须 判定 这 些 动 作 中 有 哪些 应 对 输出 负责 
上 时， 这 和 古 和 时 间 信 任 赋 全 问题 相关 的 。 时 间 和 结 攀 信 和 任 赋 值 相 结合 的 问题 对 于 任何 试图 在 涉 
及 时 间 扩 展 行 为 的 情 浙 下 据 商 其 性 能 的 分 布 式 学习 系 统 来 说 都 用 存在 的 (有 illiams, [988 ) 。 
BA, Mint -修正 学 习 被 用 于 多 层 前 局 神经 元 网 络 时 ， 信 和 任 峰 值 问 题 就 出 现 了 。 在 这 
梓 的 网 络 里 ， 每 个 隐 神 经 元 的 运作 谷 每 个 输出 神经 元 的 运作 一 样 ， 对 于 网 络 在 一 个 感 兴趣 的 
TALES 上 I 上 确 的 整体 运作 都 是 重要 的 。 也 就 是 说 ， 为 了 解决 所 规定 的 任务 ， 网 络 必须 通过 
RÆ -修正 学习 的 规范 给 它 的 神经 元 赋 于 一 定 的 行为 方式 。 在 这 种 背景 下 ， 者 虑 图 2- 1a t 
述 和 早生 形 。 由 十 输出 神经 元 对 外 界 是 可 见 的 ， 就 可 能 给 这 个 神经 元 提供 一 个 期 强 响 应 。 
就 输出 神经 元 而 言 ， 根 据 误 差 -修正 学 习 来 调节 输出 神经 元 的 突 甬 术 什 是 一 件 轻 而 易 举 的 事 
迄 ， 正 如 2.2 节 及 概括 的 那样 . (AIRS - 修正 学 习 过 程 用 于 调节 隐藏 神经 元 的 每 个 帘 触 
社 和 值 时， 我 们 如 和 何 对 这 些 神经 元 动作 的 信任 或 责任 赋值 呢 ? 对 于 这 个 基本 问题 的 回答 需要 更 
RWB; 它 在 第 4 章 给 出 ， 那 时 描述 了 设计 多 尼 前 馈 神 经 网 络 的 算法 细节 .。 


2.8 有 教师 学 习 


现在 江 我 们 把 注意 力 转 向 学 习 东 例 。 我 们 首先 讨论 有 教师 学 习 ， 也 称 为 有 监督 学 习 。 图 
2-6 说 明 这 种 学 习 方 式 的 方 框图 。 从 概念 上 讲 ， 我 们 可 以 认为 教师 具有 对 周 | 自 环境 的 知识 
(这 种 类 型 的 知识 的 形式 就 是 一 系列 的 输入 - 输出 事例 )。 然 而 感 兴趣 的 神经 网 络 对 这 种 环 啼 
一 无 所 说。 现在 我 们 假设 教师 和 神经 网 措 述 环境 状 
络 同时 要 对 从 周围 环境 中 抽取 出 来 的 训 
练 问 量 ( 即 例子 ) 作 出 判断 ， 教 师 可 以 根 
据 目 身 芝 握 的 一 些 知 识 为 神经 网络 提供 
OT UN BREE 4S BFA EA a iy, BENE — A | 名 上 应 
部 代表 着 神经 网 络 完 成 的 最 优 动作 。 神 
经 网 络 的 参数 可 以 在 训练 向 量 和 误差 信 
4S Era oe PETIA. RAAF BT 
以 定义 为 神经 网 络 实际 响应 与 预期 响应 
之 差 。 这 种 调整 可 以 逐步 而 又 反复 地 进 
行 ， 其 最 终日 的 就 是 要 让 神经 网 络 模拟 
教师 ， 在 某 种 统计 的 意义 下 ， 可 以 认为 图 2-6 有 教师 演习 方 全 图 
这 种 异 拟 是 最 优 的 、 利 用 这 种 手段 ， 教 师 对 环境 掌握 的 知识 就 可 以 由 训练 最 大 限度 地 传授 给 被 
经 网 络 。 当 条 件 成 熟 的 时 候 ， 就 可 以 将 教师 排除 在 外 ， 让 神经 网 络 完全 自主 地 应 对 环境 ， 

我 们 闭 闭 描述 的 有 监督 学 习 就 是 前 面 2.2 节 讨 论 的 误差 - 修正 学 习 方 法 。 它 是 一 种 闭环 
反馈 系统 ， 但 未 知 的 环境 不 包含 在 循环 中 。 我 们 可 以 采用 训练 样本 的 均 方 误 益 或 平方 误 益 和 
作为 性 能 测试 手段 ， 它 可 以 定义 为 系统 的 - -个 带 自由 参数 的 晒 数 。 该 函数 可 以 看 作 一 个 多 维 
误差 -性 能 曲面 ， 或 者 简称 误差 曲面 ， 其 中 自由 参数 作为 坐标 加 。 实 际 误差 旧 面 是 所 有 可 能 
的 输出 输入 的 平均 。 任 何 一 个 在 教师 监督 下 的 系统 给 定 操作 都 表示 误 兰 面 上 的 一 个 点 。 该 系 
CME AUT IB] HEE MERE, BEA ASE, PRE A AE Jo) BRE Hh SOP, 
误差 极 小 点 可 能 是 局 部 最 小 ， 也 可 能 是 全 部 点 中 的 最 小 。 有 指导 学 习 系 统 能 通 处 理 这 些 有 用 
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是 指 回 最 达 下 降 方 回 的 巾 量 。 实 际 上 ， 在 加 例子 进行 有 监督 学 习 的 情况 下 ， 系 统 可 以 采用 棉 
度 回 量 皮 时 估计 ， 这 时 假如 将 例子 的 标号 约定 为 访问 的 时 间 .， 采取 这 种 估计 一 般 会 导致 在 误 
靶 归 和 面 上 操作 点 的 运动 质 迹 经 带 以 "随机 漫游 ”的 形式 出 现 ， 然 而， 如 米 我 们 能 给 定 -- 个 设计 
好 的 算法 来 使 代价 函数 最 小 ， 而 日 有 足够 的 输入 /输出 的 数据 集 和 和 充裕 的 训练 时 间 ， 那 么 有 
指导 学 习 系 统 往往 可 以 较 好 地 完成 诸如 模式 分 类 、 因 数 逼近 之 类 的 任务 。 
2.9 无 教师 学 习 

在 有 监督 学 习 系 统 中 ， 学 习 过 程 是 在 教师 的 监督 下 进行 的 。 然 而 ， 在 无 教师 学 习 范 例 
由， 正 旭 已 的 名 字 暗 示 的 那样 没有 教师 监视 党 习 过 程 。 也 就 是 说 ， 神 经 网 络 没 有 任何 带 标号 
的 例 于 可 以 学习 。 第 二 种 学 习 范 例 { 无 监督 人 学习) 及 分 为 黄 类 ， 增强 式 学 习 / 神 经 动态 规划 和 
JOBS =] 
1. 增强 式 学 习 / 神 经 动态 规划 

(£39 32 AF J (reinforcement leaming) 中， 输入 输出 映射 的 学 对 是 通过 与 环境 的 不 断交 
互 来 完成 的 ， 目 的 是 使 一 个 标量 性 能 指标 达到 最 小 。 图 2-7 显示 的 是 增强 式 学 习 的 方 框图 。 


这 种 去 习 系 统 建立 在 一 个 评价 的 基础 上 ， 评 价 将 从 周末 环境 中 接收 到 的 原始 增强 信号 转换 成 
一 种 条 为 启迪 增强 信号 的 乌 奈 量 的 增强 信号 ,两 者 都 是 标量 输入 {Barto et al. ,1983) .设计 


该 系统 的 上 月 的 是 为 了 适应 延迟 增强 情 襄 i 
收 的 一 个 时 序 刺 激 ( 即 状态 向 量 )， 它 们 , > oe | aL 








最 终 产 生 司 发 却 的 增强 佑 导 。 学 习 的 目 
标 是 将 cost-to-pn eB Bk ie 40, cost-fo- po 
PA AE SOA RR — Fi HAE SRI BUYER Bt 
的 索 积 期 望 值 ， 而 不 是 简单 的 直接 代 
价 。 可 以 证 明 : 在 时 间 序 列 上 早期 采取 
的 动作 事实 上 是 整个 系统 最 好 的 决定 。 
学 习 机 的 功能 ( 它 构 成 了 系统 的 第 二 个 和 
组 件 ) 就 是 用 来 发 现 这 些 动作 并 将 它们 Eor anel 
向 环境 上 反馈。 
延迟 增强 式 学 幸 系统 很 难 在 实际 上 运用， 基本 原因 有 二 : 
© 在 学 习 过 程 中 的 每 个 上 少 骤 ， 没 有 教师 提供 一 个 期 望 的 响应 。 
. (Re 子 致 原始 拉 强 信号 ， 这 意味 着 学 习 机 必须 解决 时 间 信 任 赋值 问题 。 也 就 是 说， 
对 将 二 致 最 终 知 条 的 时 间 序 列 步 中 的 每 一 个 动作 ， 学 习 机 必须 各 白 独 立地 对 信任 和 
责任 赋 信 ， 而 原始 增强 可 能 仅 评 价 最 终结 果 。 
仿 管 存在 这 些 朵 难 ， 延 迟 增 强 学 习 还 是 非常 有 吸引 力 的 。 它 提供 系统 与 周围 环境 交互 的 基 
础 ， 因 此 可 以 仪 仅 在 这 种 与 环境 充 互 获得 经 验 结 米 的 基础 上 ， 发 展 学 习 完成 指定 任务 的 能 力 。 
增强 式 学 习 和 Bellmant1957) 在 最 优 控 制 理论 背景 下 提出 的 动态 规划 密切 相关 。 动 态 规 
划 提 供 作出 系列 决策 的 数学 形式 。 将 增强 式 学 习 放 在 动态 规划 的 框架 中 ， 主 题 就 更 加 丰富 ， 
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这 一 点 在 Bertsekas and Tsitsiklist 1996) fF SRI. BIAS RE SEAS AK 
PRES 12 前 讨论 。 


2. 无 监督 学 习 


如 图 2-8 所 示 ， 在 无 监督 或 自 组 织 学 习 系 统 中 ， 激 有 外 部 的 教师 或 者 评价 来 监督 学 习 的 
过 程 。 提 供 独 立 于 任务 的 表示 性 质 的 度量 ， 要 求 网 络 党 当 该 典 量 而 且 自 由 参数 将 根据 这 个 度 
量 米 逐步 优化 网 络 。 一 卫 神 经 网 络 能 够 与 输入 数据 的 统计 性 特征 相 一 化， 那么 多 将 发 展 形 成 
用 于 输入 数据 编 妈 符 征 的 内 部 表示 的 稻 力 ， 从 而 日 动 描述 环境 状 
创造 新 的 类 别 ({ Becker, 1991)。 SE 

为 了 完成 无 监督 学 习 ， 我 们 可 以 使 用 竞争 性 学 洁 
ALU. 例如， 神经 网 络 可 能 包括 两 层 : 输入 居 利 竞争 
Eo MAES ASE. FES hA oe CA 
—5E AYA AJ BU) 89 SoA ee, ELA Sit See AB Pee “BLS”. He 
重音 的 形式 就 古 神 经 网 络 采用 “上 胜 者 全 得 "的 策略 。 正 如 2.5 47 BTR, PEI BPR HLERA 
电 输 入 的 神经 元 万 得 东 争 而 被 激活 ， 其 他 所 有 的 神经 元 被 关 掉 。 

3 8 但 到 第 11 章 将 讨论 无 监督 学 习 的 不 问 算 法 ， 


2.10 学 习 任 务 
本 章 前 面 几 节 讨论 了 不 同 的 学 习 算法 和 学 习 范例 。 在 本 节 中 ， 我 们 将 描述 一 些 基 本 的 学 


习 任 务 。 选 定 一 个 特定 的 学 习 算 法 与 神经 网 络 瑚 要 完成 的 学 习 任 务 密切 相关 。 在 这 种 背景 
下 ， 我 们 将 根据 不 同 的 形式 分 别 比较 神经 网 络 的 六 种 不 同 的 学 习 任 务 ， 


模式 联想 


联想 记忆 是 与 大 脑 相似 的 依靠 联想 学 习 的 分 布 式 记忆 。 自 从 亚 里 十 多 德 时 代 起 ， 联 想 就 
被 认 作 是 人 脑 的 一 个 显著 特征 ， 而 且 认 郑 的 所 有 模式 都 以 这 种 或 那 种 形式 使 用 员 起 作为 基本 
的 行为 (Anderson ,19951 - 

联想 有 两 种 形式 自 联 想 与 异 联 起。 上 自 联想 方式 当 存 储 一 系列 的 模式 ( 回 量 ) 时 神经 网 络 
要 求 不 断 地 将 它们 呈现 给 网 络 。 其 后 将 已 存 模式 的 部 分 描述 或 畸变 (噪声 ) 形 式 呈 规 给 网 络 ， 
而 网 络 的 仁 务 谣 是 检索 (回忆) 存储 的 该 特定 模式 。 异 联想 与 自 联 想 的 不 同 之 处 就 在 十 一 个 任 
意 的 输入 模式 集合 与 男 - 个 输出 模式 集合 配对 。 自 联想 需要 使 用 巨 监督 学 习 方 式 ， 而 异 联想 
采用 监督 学 习 方 式 。 

设 x, 表示 在 联想 记忆 中 的 关键 模式 ( 问 量 ) 而 Y 表示 存储 模式 (向 量 }， 网 络 完 成 的 模式 
AE H 






图 2-8 无 监督 学 习 方 框图 


Xe > Vh, k = 1,2,'".4 (2.18) 
Em, HP ¢ 是 存 情 在 网 络 中 的 模式 数 。 关 键 模式 x, ENIA, MIRET RRA y, 的 存 
fais, wa hee 
伍 日 联想 记忆 模式 中 ，% yo BLAS 2 RERE CER RM ORRA 
中 : x, 4¥,3 因此 ， 第 二 种 情 枕 的 输出 空间 维 数 可 能 与 输入 数据 空间 维 数 相同 ， 也 可 能 不 同 。 
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* 存储 阶段 ， 指 的 是 棋 据 式 (2.18) 对 网 络 进 行 训练 。 

© 回忆 阶段 ， 网 络 根据 所 呈现 的 有 噪声 的 或 畸变 的 关键 模式 检索 对 应 的 存储 模式 。 

RB Cd A x 表示 关键 模式 x, 的 有 噪声 或 畸变 形式 。 如 图 2-9 所 示 ， 这 个 刺激 产生 啊 
上 (输出 )7。 攻 为 完整 的 回忆 ， 我 们 将 发 现 了 = 7 ， 输入 向 量 输出 向 量 
EH y, 为 由 关键 模式 x, 联想 的 记忆 模式 。 如 果 对 oo ay 
x=x, 有 yzy;， 就 说 联想 记忆 有 回忆 错误 。 

联想 记忆 中 存储 的 模式 数 日 y 提供 网 络 存储 人 
能 力 的 一 个 直接 度量 。 在 设计 联想 记忆 时 ， 问 题 就 是 使 存储 能 力 oc (KASH 
经 元 以 数 上 的 百分比 ) 尽 量 大 ， 和 并 有 保持 记忆 中 的 天 部 分 模式 能 正确 回忆 。 


模式 识别 


ASAE ATER), 通过 感官 ， 我 们 可 以 从 周末 的 世界 接受 到 数据 ， 并 且 可 以 识别 
出 数据 源 。 我 们 往往 是 瞬间 完成 ， 儿 乎 毫 不 费力 。 例 如 ,我 们 能 够 识别 中 任何 一 瀛 熟悉 的 
脸 ， 即 使 我 们 和 这 个 人 已 经 多 年 林 曾 谋面 。 无 论 电话 线路 如 何 差 支 ， 我 们 还 是 可 以 迅速 地 根 
据 他 或 者 她 的 声音 很 快 地 玛 别 出 你 的 熟人 。 仅 仪 闻 -- 下 ， 就 能 分 辨 出 一 个 者 奖 削 是否 变 坏 。 
人 人 类 是 遂 过 学 习 过 程 来 成 动 地 实现 模式 识别 的 ， 神 经 网 络 也 是 如 此 ，。 
模式 识别 被 形式 地 定义 为 一 个 过 程 ， 由 这 个 过 程 将 接收 的 模式 或 信和 号 确定 为 一 些 指 定 类 
‘ 尖 刑 ) 中 的 一 个 类 ,一 个 神经 网 络 要 实现 模式 识别 需要 先 经 过 一 个 训练 的 过 程 ， 在 此 过 程 中 
网 络 需 要 不 断 地 接受 ~ 个 模式 集合 以 及 每 个 特定 模式 所 赃 的 类 别 ， 然 后， 拒 一 个 以 前 没有 已 
过 但 属于 用 二 训练 网 络 的 同一 模式 总 体 的 新 模式 呈现 给 神经 网 络 。 神 经 网 络 可 以 根据 从 训练 
数据 中 提取 的 信息 识别 特定 模式 的 类 别 。 神 经 网 络 的 模式 识别 本 质 上 是 基于 统计 特性 的 ， 各 
个 模式 果 以 表示 成 为 多 维 判 定 空间 的 一 些 点 。 判 定 空间 被 划分 为 不 同 的 区 域 ， 每 个 区 域 对 应 
一 个 模式 类 判定 边界 由 训练 过 程 
决定 。 我 们 可 以 根据 各 个 模式 类 内 
部 以 及 它们 之 间 轩 有 可 变性 用 统计 
方式 确定 边界 ， 
一 般 而 论 ， 采 用 神经 网 络 的 模 
陈 识 别 机 分 为 如 干 现 种 形式 : 
* 如 图 2-10a 所 示 ， 识别 机 分 
FIBER at, FASE PE Fe Se th Ft. 
的 无 监督 网 络 和 作 分 类 的 监 
SR, POR 
的 统计 特性 模式 识别 方法 
(Ouda and Hart, 1973; Fukunaga, 
1990) 。 用 概念 术语 来 表示 ， mr 维 观察 空间 q- 维特 征 空 间 r- A) eae 
一 个 模式 是 一 个 m 维 的 可 b) 


ADL WS) SX BE, Bm 维 观测 图 2-10 模式 分 类 的 经 典 分 类 方法 图 解 
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(数据 ) 空 间 集 中 的 一 个 点 x, 如 图 2-10b AAR, Rete BRAT eR, ERA x 
映射 成 一 个 g 维特 征 空 间 相 对 应 的 中 则 总 yt9< im). CAPS BO AE E AE Se Ae 
( 即 ， 数 据 奈 缩 )， 这 入 司法 主要 是 基 十 简化 分 类 任务 的 考虑 。 分 类 本 生 可 描述 汶 -- 
Tea, ERPE y EIN r 维 判定 宝 间 上 的 一 个 类 ， 其 中 + 是 要 区 分 的 类 别 煞 。 
。 识别 机 设计 成 一 个 采用 监督 学 习 算 法 的 多 层 前 局 网 络 。 在 这 第 二 个 方法 中 ， 特 征 抽 
取 由 网 络 隐 藏 层 中 的 计算 单元 执行 ， 
实际 应用 中 到 底 采 用 两 个 方法 中 的 哪 一 个 方法 ， 取 次 于 实际 应 用 的 善 眼 点 。 
函数 逼近 
第 二 个 学 习 任 务 是 盟 数 遂 近 。 考 虑 由 男 数 关系 
d = f(x) (2.19) 
fA PERE RAR RO, Epil x 是 输入 ， 向 量 d WH. WB ae tl BE 
HRA. A FIKR ORNEARRE, FR REA UM) FA ARE IES, 
了 人 (is (2.20) 
Fa SEK ERHAN HE OR ea OO, 使 由 网 络 实 际 实 现 的 描述 输入 - 输 
Hh Ast AY) pray FC) ZEB eG ot REE, BD 
| F(x) - fx) | < es 对 于 所 有 的 x (2.21) 
HP e 是 一 个 很 小 的 正 数 。 候 定 训 练 集 样本 数目 站 足够 大 ， 祁 经 网络 也 有 有 适当 数 日 的 白 由 
参数 ， 邦 么 对 于 特定 的 任务 着 近 误 差 8 应 当 是 足够 的 小 。 
TRE, UR MRE PRBS, Ry 是 输入 向 量 ， 而 d 是 期 望 的 
啊 乱 。 我 们 可 以 摘 一 个 角度 思考 这 种 问题 ， 将 监督 学 习 看 成 是 一 个 逼近 问题 。 
神经 网 络 表 近 一 个 未 知 输入 - 输出 映射 的 能 力 可 以 从 两 个 重要 途径 利用 : 
*。 系统 辩 识 。 假 定式 (2.19) 摘 述 的 足 一 
个 林 关 的 无 记忆 的 多 输入 -多 输 纪 
(multiple input-multiple output, MIMO ) 
系统 的 畏 人 输出 关系 ; 所 半 无 记忆 ” 
系统 ， 我 们 指 的 是 时 间 不 变性 的 系 
统 。 然 后 我 们 利用 在 式 (2.20) 中 的 标 
定 的 例子 集合 将 神经 网 络 训 练 为 系统 
的 一 个 和 模型。 假定 了 ， 表 示 神 经 网 络 
中 对 输入 回 量 x, 产生 的 相应 输出 。 
正如 图 2-11 所 描 给 ，d {与 x, 相对 
MSE y, ZAE NREN E E AE 
Se, KARAR oA TARRASA, RARA RAR 
Pe a ES PR Se OE PR eI SM LABIA, 
* PAR. FARRIS e-toc MIMO 系统 ， 其 中 输入 输出 关系 如 式 
(2.19) 所 示 。 在 这 种 情况 下 的 要 求 是 如 和 何 构造 一 个 北 系 统 ， 针 对 向 量 4 产生 系统 向 
Bx, BARS LA 
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x= f'(d) (2.22) 
HE, Hobe fee o's f(- ee, HE, OTERO, FAR- 1 1K 
VERA. TEER EP, RARR ete, MTB a TSK 
RRR (IW eek, MEMAR. EERE, FRAT RA 2-12 所 示 的 
oh BEATE — PtH 2S ER Oa OC). TERRA, x, Fd, Ee EE: 
问 量 d, 作为 输入 ， 问 量 x, AHRR, BEE e 表示 x, 与 性 经 网 络 针 对 到 的 实际 办 
Hy, QW, SRSA, 利用 误差 信号 问 量 来 调节 网 络 的 日 由 参数 ， 节 终 使 未 
刘 逆 系统 的 输出 和 性 经 网 络 输出 在 整个 训练 样 例 集 上 的 平方 差 在 统计 和 意 交 二 达到 最 小 。 

ex e, 





图 2-12 aes IK Se ER 

控制 

神经 网 络 可 以 完成 的 另外 一 个 学 避 任 务 是 对 设备 进行 控制 操作 。 所 请 “说 备 " 指 的 是 一 个 
过 程 或 痢 基 可 以 在 被 控 状 态 下 维持 运转 的 系统 的 一 个 关键 部 分 。 学 习 和 控制 相关 共 实 不 是 一 
忻 忻 么 值得 太 惊 小 怪 的 事情 ， 毕 总 我 们 人 脑 就 是 一 个 计算 机 { 即 信 息 处 理 器 }， 作 为 整个 系统 
的 答 出 是 实际 的 动作 ， 在 控制 的 这 种 意 头 下 ， 人 脑 就 是 一 个 活生生 的 例子 ， 它 证 明 可 以 建立 
一 个 三 疼 控 制 曾 ， 充 分 利用 并 行 分 布 式 硬件 ， 能 够 并 行 控 制 成 千 上 方 的 至 动 器 (如 肌肉 神经 
纤维 )， 能 够 处 理 非 线 性 性 和 了 品 卢 ， 并 且 可 以 在 长 期 计划 水 平 上 进行 优化 (有 erbos ,1992) ， 

考虑 如 图 2- 13 所 示 的 反馈 控制 系统 。 该 系统 涉及 利用 定 控 设备 的 单元 反馈 ， 即 设备 的 
输出 直接 反馈 给 输 和 人” 。 因 此 设备 的 输出 y 减 去 从 外 部 信息 源 提 供 的 参考 信号 d, RRA LO) 
产生 运 交 信 汪 & 并 将 之 应 用 到 昼 经 控制 器 以 恒 寺 节 它 的 日 由 参数 .控制 疮 的 主要 功能 就 是 为 
没 备 提供 相应 的 输入 ， 从 而 使 它 的 输出 y 跟踪 参考 信和 号 d。 换 徊 话说 ， 就 是 控制 器 不 得 不 对 
Tae Par Oa A Fe OG CAE TT R. 





图 2-13 反馈 控制 系统 方 框图 


Tt SEVER 2-13 Pikes > e TEFIARM ACA HAT Blas. 25h, RGR 
4-1 UREA SSM BSI, ER AI Jacobi 矩阵 


J = oe | (2.23) 
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其 中 Yh He ie cy 的 :一 个 匹 件 ， 而 us; EHR A u Aort AEREA y, 


3z SPARK, FRR eT A, Ae. RE ARA FAAA EZ 
RAMUT R a 
。 间接 学 习 。 利 用 说 备 的 实际 输入 - BOWS, EE ARR RATE -AE 
的 复制 品 。 接 着 利用 这 个 复制 品 担 供 Jacobi 年 阵 J — aa. 随 之 把 构成 Jacobi 
RE J Ae SORA TRS -修正 学 习 算 法 ,以便 计算 对 神经 控制 器 的 自由 参数 的 调 
节 { Nguyen and Widrow, 1989; Suykens et al. , 1996; Widrow and Walach, 1996) - 
© RFJ, PW, feu, A SEAM BRA RANK A ERS 
HJ ORR AIR TA LORS AS I a eR. EIS a ee 
Hl eA) E B SRAI oh Hes 24 h (Saerens and Soquet, 1991; Schiffman and Geffers, 
1993). PRI, FRASER aR AES Be Mi eed ee Ee A H ee. 


RRB Aa ee Re MRE, PIE REA — TR SD ee A 
ER EMTS SORA. RARER AIRES. FA, AT EER A te 
Sah ll St ue, E A) BE eas RRR BY Se a SB eR PT. Hh iT JE 
一 个 有 用 的 信号 元 件 受 到 从 它 周 围 环境 接收 的 十 扰 信 号 的 损害 。 我 们 可 以 使 用 滤波 此 来 实现 
三 个 基本 的 信息 处 理 尾 务 : 

1. 滤波 。 这 个 任务 指 的 是 在 离散 的 时 间 n 用 直到 = HEI n 在 内 的 测量 数据 抽取 一 定 
量 有 价值 的 信息 。 

2. 平 消 处 理 。 第 二 个 任务 不 同 于 滤波 钼 理 之 处 在 于 在 时 间 ”同一 定量 有 价值 的 信息 不 
可 得 到 ， 而 且 在 时 间 nn 之 后 测量 到 的 数据 可 以 用 来 得 到 这 个 信息 。 这 意 昧 着 在 平 涝 处 理 这 
Reh, PSR AR, AAPA PS, FRI AEA A BST a) n 的 数 
据 ， 而 且 可 以 利用 在 n ZERRE., ASR EX EO, RS eae ke F akh 
cite OO Fa HA < 

3. 预测 。 这 个 任务 是 指 信 息 处 理 过 程 的 预测 方 血 。 它 的 目的 是 通过 测量 伸 and n) 时 刻 的 
数据 ， 导 出 一 定量 有 价值 的 信息 ， 这 自信 息 可 能 与 将 来 n+ no 时 刻 的 数据 相似 ， 其 中 ny > 0。 

滤波 问题 是 大 家 都 很 熟悉 的 “鸡尾酒 会 问题 "。 "在 鸡尾酒 会 这 样 一 个 嗜 杂 的 环境 里 而 ， 
房间 里 还 有 其 他 的 干扰 性 谈话 ， 说 话 者 的 声音 信号 往往 埋没 于 与 之 几乎 差不多 的 哩 声 环 境 
中 。 伯 无 论 震 样 哨 ， 人 和 们 都 有 一 个 非常 了 不 起 的 能 力 : 全 神 贰 广 听 清 与 之 对 话 者 的 谈话 。 在 
解决 鸡尾酒 会 问题 时 ,可 想 而 知 的 是 ,上 朋 定 采取 了 某 各 形式 的 预 处 理 分 析 手 段 { Velmans， 
1995)。 在 {人工 ) 神 经 网 络 环境 中 ， 出 声 一 个 相似 的 滤波 问题 ， 邑 盲 信号 的 分 户 问 题 (Comon， 
1994; Bell and Sejnowski, 1995; Amari et al. , 1996 )。 为 了 将 时 信 号 分 离 问 题 形式 化 ， 我 们 假定 


未 知 源 信号 集合 1s,(n) 1, 彼此 之 间 相互 独 。 1u(m) oof 
立 。 这 些 信号 由 未 知 传感器 的 线性 混合 , pe YS 


AE mx WER SAR 2-14) E 


ey ed 


x(n} = An(r) (2,24) Ae 
其 中 图 2-14 BSR SE 
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F F u 49 
u(n) = Lu m), un) e un a 1]? (2.25) 
x(n) = aan) aan), x (2.26) 


MH A ARHAR mxm TRAP RRO. AER x(n), BRERA PR 
BURRS alna) ua), yu, Cn). 

现在 四 到 骇 训 问题 上 来 ， 给 定 过 程 人 在 过 去 时 间 上 均匀 分 布 的 一些 值 ， 如 x(n - T), 
xlna- 2T) ouxin- mI), EP TARA, m 是 预测 顺序 ， 要 求 对 过 程 的 当前 值 x(n) 
作出 预测 。 姑 图 2- 15 所 示 ， 其 然 训 练 样本 是 直接 从 过 程 本 身 来 抽取 的 ， 可 以 利用 监督 学 习 
的 旋 圭 -修正 方法 来 解决 预测 问题 ， 其 中 xfa) 假 定 为 期 望 的 啊 应 。 仍 定 en AMA MABE 
时 间 天 产生 的 预测 恒 ， 那 么 误差 信号 elm UEA eln) 4 x(n) HOSEA, e(n) HUA 
神经 陪 络 的 白 由 参数 。 基 于 此 ， 预 测 酝 视 为 某 种 形式 上 的 模型 构建 ， 在 统计 意义 下 ， 这 种 预 
测 误 差 越 小 ， 网 络 作为 产生 数据 的 内 在 物理 过 程 的 模型 性 能 就 越 好 。 如 果 这 一 过 程 旦 非 
线性 的 ， 那么 使 用 仲 经 网 络 就 为 解决 预 xin} C 
测 问 题 提供 了 一 个 强 有 力 的 解决 方案， 


因为 非 线性 处 理 单元 可 以 巾 信 它 的 构造 。 2 站 ia aa 
中 。 但 是 使 用 非 线性 处 理 单元 惟一 可 能 神经 网 络 =} 
AA ERRANA AT. WRR x- mT) o ON 


Mlix(n) 的 动态 区 域 是 未 知 的 ， 最 侣 


娃 的 选择 十 使 用 线性 输出 单元 。 2-15 非 钱 性 预测 方 框图 
波束 形成 

波束 形成 是 涨 波 的 空间 形式 ， 利 用 它 区 分 目标 信和 号 和 背景 品 声 的 空间 人 性质。 用 于 波束 形 
BCE Se PRA RIE oh, & o 


波束 形成 的 任务 适合 利用 神经 网 络 ， 因 为 从 人 类 听觉 反应 的 心理 声学 的 研究 (Bregman， 
1990 ) 和 师 蝠 辐 声 定 亿 听 知 系统 应 质 层 的 特征 上 映射 研究 (Suga,.1990a; Simmons and Sailant, 1992 } 
中 ， 我 们 有 了 相关 的 线索 。 蝙 旺 的 回声 定位 由 发 送 短 时 频率 调制 (frequeney-modulated, FM} 74 
纳 信号 了 解 周 围 环境 ， 然 后 利用 它 的 听觉 系统 (包括 一 对 耳 朱 ) 集 中 注意 于 它 的 猎物 (如 飞行 
的 民 虫 )。 蝙 暗 的 耳 未 提供 杂种 形式 的 空间 滤波 ( 淮 确 地 说 为 空间 干扰 测量 术 )， 沂 觉 系统 利 
用 全 产生 注意 的 选择 性 {altentional selectivity} 

波束 形成 通常 用 于 雷达 和 声 纳 系统 ， 它 们 的 基本 任务 是 在 接收 器 虞 声 利 干扰 信号 {如 人 
为 干扰 } 出 现 的 情况 下 探测 和 跟踪 感 兴 趣 的 目标 。 两 个 因素 使 这 个 任务 复杂 化 。 

。 目标 信号 源 自 未 知 的 方 癌 。 

+ 干扰 信号 充 可 用 的 先 验 信息 。 

寻 理 这 种 情况 的 一 种 方法 是 使 用 广 头 常 辩 消 除 器 (generalized sidelobe canceller, GSLC )， 
图 2-16 RANA EE RAE. 这 个 系统 由 以 下 组 件 组 成 {Griffiths and Jim, 1982; Van Veen, 
1992; Havykin, 1996): 

"一 个 天 线 元 阵列 ， 它 提供 对 空间 中 离散 点 上 的 被 观察 的 信号 取样 的 手段 。 

“ 一 个 线性 组 合 器 ,， 它 是 由 国定 的 权重 集合 lw 拉 , 定 关 的 ， 其 输出 就 是 期 望 的 响应 。 

这 个 线性 组 合 般 的 作用 就 像 一 个 "空间 滤波 器 "， 它 出 一 个 辐射 模式 刻画 (例如 ， 一 个 
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图 2- 16 SARITA RAR DT HE 


Rev ia iR GEARS AR ARB). Fe ES ee. A 
此 GSLC 受 它 约 昌 而 产生 一 个 无 畸变 的 响应 。 线 性 组 全 器 的 得 出 记 为 din), EINE 
DRL FE BM eter DE 24 BA E aA Mal fi < 

。 MEF RIE C,, ER SUMERAIBR ESL, EBOPHR ARREARS 

Jet) SS De a FT A AY) SAR TH - 

， 一 个 具有 可 调 参数 的 神经 网 络 ， 它 被 设计 成 能 适应 干扰 信号 的 统计 变化 。 

神经 网 络 的 自由 参数 的 调节 是 由 一 个 在 误差 信号 e(n) 上 上 操作 的 到 销 学 习 算法 完成 的 ， 
eltn) 由 线性 组 合 器 的 输出 dtn) 和 神经 网 络 的 实际 输出 ytn) 之 间 的 差 确定 。 从 而 GSLC 在 线 
性 组 合 器 的 监督 下 操作 ， 线 性 组 合 器 担当 着 “教师 "的 角色 。 作 为 普通 的 监督 学 习 时 ， 注 总 线 
性 组 合 器 是 在 神经 网 络 的 反馈 环 之 外 的 。 一 个 使 用 神经 网 络 来 学 习 的 波 末 形成 融 称 为 神经 波 
束 形 成 器 {neural beamformer) 或 者 神经 -波束 形成 器 (neurobeamformer)。 这 类 学 习 机 可 上 归 入 注 
意 性 神经 计算 机 (attentional neurocomputers } 4370, Fé] ( Hecht-Nielsen , 1990} 。 

这 里 计 论 的 6 个 学 习 任 务 的 多 样 性 是 神经 网 络 作 为 信息 处 理 系 统 通用 性 的 证 明 。 从 基本 
意义 上 说 ， 这 些 学 习 任 务 都 是 从 映射 的 样 倒 中 (可 能 有 了 噪声) 学 习 映 射 的 问题 。 如 果 设 有 强 这 
接受 先 验 知识 ， 可 能 的 解 映 射 并 不 惟一 ， 从 这 个 意义 上 来 说 ， 每 个 尾 务 事 实 上 部 是 不 适 定 
的 。 使 这 些 解 适 定 的 一 个 方法 是 使 用 第 5 章 摘 述 的 正则 化 理论 - 


2,11 记忆 


关于 学 习 任 务 的 讨论 ， 特 别 是 模式 联想 的 任务 ， 使 我 们 很 日 然 地 考虑 记忆 的 问题 。 在 神 
经 生物 学 的 语义 环境 中 ， 记 忆 是 指 由 生物 和 它 的 环境 之 间 相 互 作 用 而 诱导 出 的 相对 持久 的 昼 
经 改变 (Teyler, 1986)。 没 有 这 各 变化 就 没有 记忆 、 而 且 ， 要 想 这 种 记忆 有 用 ， 它 必须 对 神经 
系统 蚌 可 存 取 的 ,这样 才 可 以 去 影响 未 来 的 行为 。 然 而 ， 一 个 活路 模 信 必须 首先 通过 学 习 过 
程 被 存储 在 记忆 里 ， 记 忆 和 学 当 错 红 复 杂 地 联系 着 。 当 一 个 特定 的 活跃 模式 被 学 习 后 ， 它 就 
存放 在 脑 中 某 个 地 方 ， 在 需要 时 就 会 回忆 起 来 。 记 忆 可 以 分 为 "短期 和 长 期 记忆 ， 取 次 于 
保持 的 时 间 {Arbib,1989 )。 短 期 记忆 指 代 表 环 境 的 “当前 ”状态 的 知识 的 编制 。 以 短期 记忆 和 存 
屠 的 知识 和 “新 ”的 状态 之 间 的 任何 差异 ,都 会 用 来 更 新 短期 记忆 。 另 一 方面 ， 长 期 记忆 指 长 
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时 间或 永远 存储 的 知识 ， 
在 这 一 节 中 ， 我 们 掌 习 有 如 下 特征 的 联想 记忆 : 
© 拒 忆 是 分 布 式 的 


© 联想 记忆 的 麟 激 ( 关 键 ) 模 式 和 响应 {存储} 模式 由 数据 向 量 组 成 。 

© 退 过 投下 大 量 神 经 元 的 神经 活动 的 空间 模式 ， 在 记忆 里 存储 信息 。 

* 刺激 包含 的 信忠 不 仅 决 定 它 人 在 记忆 中 的 存储 位 置 而 且 决 定 它 的 检索 地 直 。 

© 里 然 神 经 抑 不 代表 可 等 的 和 低 品 音 的 计算 儿 ， 但 是 记忆 表现 出 对 扩散 类 型 的 曲 音 和 


BCR BS iai BE I til < 


© TRTE PRR ok A EE. (EWURE ERA, AAE 
Be FTE IA, BE RH 5c BS END Eo RAS FIZ TE A PERE 


的 独特 的 可 能 性 。 

在 分 布 式 记忆 中 ， 基 本 的 问题 是 许多 不 同 神 经 元 的 
同时 或 接近 同时 的 行动 , 这 是 外 部 或 内 部 刺激 的 结果 。 
神经 活动 在 记忆 内 构成 的 空间 模式 包含 关于 刺激 的 信息 。 
因此 ， 我 们 说 记忆 去 执行 一 个 分 布 式 上 映射， 它 把 一 个 输 
和信 玉 同 的 活 茎 模式 转换 为 另 一 个 输出 空间 活 姨 模式 。 我 
们 可 以 考 意 一 个 理想 化 的 由 两 层 神 经 元 组 成 的 神经 网 络 ， 
来 解释 分 布 式 记忆 映射 的 一 些 重 要 特性 。 可 以 认为 图 2- 
17 是 神经 系统 组 件 模 型 的 网 络 的 图 解 {Cooper, 1973; 
Scofield & Cooper, 1985 )。 开 输入 层 的 每 个 神经 元 都 和 输 
出 层 的 每 个 神经 元 相 联 结 .， 实际 上 突 盘 之 间 的 连接 是 复 
条 的 和 有 宛 余 的 、 在 图 2-17a 的 模型 里 ， 一 个 单独 的 理 
AEE FE Bie HAR Ze as A Ae a FR RR AEA, ace 
Be AOU FF E Fa A Fed By BE 28 STH BR a 
分 六 之 间 。 输 入 层 一 个 神经 元 的 活动 术 平 会 影响 到 输出 
fe BE HES CATA KE. 

图 2- 17b 描绘 的 是 相应 的 人 人 工 神 经 网 络 的 情况 。 图 
中 有 一 个 源 节 点 的 输入 层 和 一 个 作为 计算 节点 的 神经 元 
输出 压 。 在 这 种 情况 下 ， 网 络 的 究 触 权 重 被 作为 神经 元 
的 整体 部 分 包括 在 输出 层 。 网 络 的 两 层 之 问 的 连接 链 是 
简单 连 线 . 

在 以 下 的 数学 分 析 中 ， 假 定 图 2-17a 和 2-17b 的 神 
终 网 络 是 线性 的 。 这 一 假 谍 的 内 亩 是 每 一 个 神经 元 都 像 
一 个 线性 组 合 带 一 样 运作 ， 如 图 2- 民 的 信号 流 图 所 示 。 
为 了 进行 分 析 ， 没 想 一 个 活动 模式 x 发 生 在 网 络 的 输入 
后 ， 为 一 个 活动 模式 y 同时 发 生 在 输出 层 。 这 里 我 们 要 
AGS AYR) aE MR x, 和 模式 y, 之 间 的 联想 中 学 习 。 
RA x Wy, 用 向 量 表 示 ， 它 们 的 扩展 形式 记 为 :; 


X; = Lanata aiad 
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Ae 神经 元 
输入 层 输出 层 


b) 


ES 2-17 联想 记忆 模型 
a) fee Fe St ECA ic tz eo SF 
bE ALACT 8 3 co ic RN 





图 2-18 线性 神经 元 ay [76 | 
aS dat El Be 


日 


52 £2z 


All Ip = L Yur Sie Yen | 
为 了 表达 的 方便 ， 我 们 假定 输入 空间 维 数 (例如 向 量 x AERO Ss Fe) Ee ey, 
的 维 数 ) 是 相同 的 ， 如 等 于 m。 从 此 我 们 称 m 为 网 络 维 数 或 者 简称 维 数 。 注 意 m 等 于 输入 
屋 的 浪 凶 点 数目 或 者 输出 层 的 神经 元 数 日 。 对 于 :个 有 着 大 其 神经 元 的 神经 网 络 ， 这 是 典型 
的 情况 ， 维 数 m 可 能 是 很 大 的 ， 

x, Hy, 的 元 素 可 假定 是 下 值 或 全 值 。 这 是 人 工 神 经 网 络 中 一 个 合理 的 假定 。 当 考 虚 一 
个 真实 的 激活 水 平 (例如 一 个 神经 元 的 激发 率 ) 和 一 个 非 零 的 自发 激活 水 平 之 问 差 异 作 为 相关 
AE BAe ae BER, CE HEL BE AL PE EH 

图 2-17 假定 为 线性 的 网 络 ， 关 键 向 量 x 和 已 记忆 的 向 量 y, 之 间 的 联想 可 以 用 矩阵 的 
形式 来 表示 如 下 : 

ye = WEE, k= 12g (2.27) 

这 里 WO DERE, SU A A -mht y HAGE - 

为 了 显示 权 值 矩阵 WCE), FRB 2-18, ERS Bo ia 
具体 排列 。 由 于 输 人 层 刺 激 用 于 对 关键 模式 x, 的 元 素 的 组 合 动作 ， 神 经 元 i 的 输出 y, 由 下 
式 给 出 : 


Ya = Sh wy (hb) ay, i = 1,2,--",m (2,28) 
其 中 w (k), f = 1，2,，…，m 是 神经 元 i 对 应 于 第 大 KARR, HE 
地 ， 我 们 可 以 用 等 价 的 形式 


Xy 
Tyl . 
Ye = lw Ck), wy k), we Ck) | . + T = [,2,°c',m (2,29) 


x im 


表达 各。 式 (2.29) 右 边 的 列 向 量 被 识别 为 关键 向 量 x ， 通 过 把 式 (2.29) 代 入 mx 1 的 存储 向 
a Yk AE, 18l 


Yk 1, CA) wis k) di Wima 下) Xgl 
m _ = — p Sater re (2.30) 
F kn Wm (i) Way A) i tnm ( k) A hon 
式 {2.30) 是 式 (2.27) 中 描述 的 矩阵 变换 或 映射 的 展开 形式 ， 特 别 是 ，m x m SRE WA) TLL 
定义 为 
wn CK) With) AR wi tk) 
Wk) = mE = o Ma (2.31) 
WA) walk) tl CBD 


单独 地 表示 9 对 联想 模式 xy ksl, 2, oe, ¢, ERENER, B W 
(1), W2), =, Weg) 假如 这 个 联想 模式 用 权 值 种 阵 WO DRE, RIAT ae 
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mx m 记忆 矩阵 ， 用 来 描述 整个 联想 模式 集合 的 权 人 租 算 陡 的 外相， 表示 如 下 ;， 

M = YiW(E) (2.32) 
记忆 定 阵 M 定 交 联想 记忆 的 输入 和 输出 层 之 癌 的 全 部 连接 。 沁 和 实 上， 第 隆 M 代表 记忆 表述 
g TELA -ANRA RIAA BAe, FARR, IEMA BT 
ALATA PEK a A AT o 

式 (2.32) 中 给 出 的 关于 记忆 证 阵 的 定义 用 递归 的 形式 可 以 重新 表示 为 

M, = MI + Wk), k= 1 26 (2.33) 
这 里 M WYSE OC REAR, GIZA SS AR RE OO), ARAM, 和 式 
(2.32) 中 定义 的 M 的 值 完 全 相等 。 根 据 递 归公 式 (2.33)H 知 ， 项 ML ACA - 1D PRE 
式 得 出 的 记忆 第 阵 的 旧 值 ，ML 是 按照 第 站 个 联想 模式 产生 的 增 量 Wi) 更 新 后 的 值 。 然 而 ， 
要 注意 的 十， 如 果 把 We) dB) M, 上， 增 量 WOR) EAH FTES M, 时 的 惟一 性 。 
里 然 考 虚 不 同 腾 想 的 突 触 混合, 但 有 闫 刺激 的 信息 可 能 并 未 丢失 ,就 像 最 后 结果 显示 的 奢 样 。 
还 要 注意 的 是 ， 当 存储 的 模式 数 妖 g 增 大 时 ， 记 忆 中 新 模式 的 影响 总 的 来 说 在 选 渐 减 小 。 


fe EI IZ 


根 设 图 2-17b 的 联想 记忆 通过 由 x 一 VY; 描述 的 关键 模式 和 记忆 模式 的 联想 学 习 了 记忆 
矩阵 M 并 已 经 记 住 了 ,这 里 大 = 1，2，…，d。 我 们 可 以 假定 M， 代 表 记 忆 和 气 阵 M 根据 这 
Eb Rt 9G Ade FT 1B ( Anderson, 1972, 1983; Cooper, 1973), RU F: 

M = yx! (2.34) 
Myx 代表 关键 模式 x, AERA y, AIA., AARE WOR, w44 
矩阵 把 模式 y, RAAR BEA x, 上。 既然 模式 x, A y, BEREA mxl EE, MAETI 
SER yx), EMEA M 就 是 一 个 m 行 m AEE, SRE AS (2.32) 
HSE YA IZ ERE M 相 一 致 。 估 计 值 M 总 和 的 形式 与 式 (2.32) 中 定 久 的 记忆 第 阵 有 着 直接 

外 积 yx, 的 典 卉 形式 可 以 表示 为 内 ti AE 如 是 条 大 层 中 源 节 点 地 的 输出 ， 亿 是 输出 
层 中 神经 元 的 输出 。 在 第 k ARERR w () 中 ， 源 节点 了 代表 一 个 前 罕 触 节点 ， 
输出 层 中 的 神经 元 让 代表 一 个 后 突 触 节点 。 因 此 ， 式 (2.43) 中 描述 的 "局 部 "学 习 过 程 可 以 看 
成 是 Hebb 学 习 假 设 的 礁 广 。 考 虑 到 用 于 构造 记忆 和 矩阵 M 的 矩阵 运算 ， 它 也 称 为 外 积 规 则 。 
相应 地 ， 这 样 度 计 的 联想 记忆 称 为 相关 短 阵 记忆 。 这 种 或 那 种 形式 的 相关 ， 确 实 是 人 类 神经 
系统 中 学 习 、 联 想 、 和 模式 识别 和 记忆 回想 的 基础 (Eggennont, 1990 ) 。 

式 (2.34) 可 以 重新 与 成 等 价 的 形式 为 : 


A. RS Xi. : 
M = (¥5¥25' sy, 1) 6 | = YX (2.35) 


这 里 
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X = [x,,% 4x, ] (2.36) 
= [yuy oF, | (2.37) 
ER X ge ORE fA Tg Ye TT g SHERE, EEE Y FE rH BEY 
记忆 模式 组 成 的 中 行列 矩阵 ; 称 作 被 记忆 矩阵 、 
式 (2.35) 可 以 用 递归 的 形式 表示 成 
M, = M,_ ee c= 1378 (2.38) 
图 2-19 表示 这 个 递归 的 信号 流 图 。 根 据 
这 个 信号 流 图 和 递归 公式 {2.38)， 矩 阵 
M, 代表 记忆 算 阵 的 旧 知 计 值 ; 矩阵 M, 
代表 记忆 作用 于 模式 总 和 BE) 
ABACK SE. beet (2.38) (2.33) AY 
递归 ， 我 们 可 以 看 出 ， 外 积 yw 代表 权 
(FEE WOK) TAI TA k PRR x, 
和 记忆 模式 y, 联想 的 估计 值 。 图 2- 19 ”等 式 (2.38) 的 信号 流 图 表示 





回忆 


在 使 用 一 个 联想 记忆 的 过 程 中 提出 的 基础 问题 是 ， 保存 在 记忆 中 模式 的 地 址 和 和 回忆。 为 
了 解释 这 个 问题 的 一 个 方面 ， 我 们 让 M 表示 一 个 联想 记忆 的 记忆 和 矩 隆 ， 通 过 与 式 (2,34) 相 
一 致 的 g 个 联想 模式 ,已 经 完成 了 对 这 个 矩阵 的 学 习 。 随 机 选取 一 个 关键 模式 x, 作为 记忆 
的 刺激 产生 响应 


y = Mx, (2.39) 
将 式 (2.34) 代 人 式 (2.3)， 得 到 
y= Siyrin; = D (lx, )y, (2.40) 
这 里 ， 看 到 第 二 行 中 的 x x, 是 -- 个 标量 ， 它 的 值 等 于 关键 向 量 x, Ax, 的 内 积 。 我 们 时 以 将 
式 {42.40) 重 写成 
y = (x xy, + x F; (2,41) 
RARA x. &, s X 均 被 规格 化 为 具有 单位 能 量 ， an 
DE = xx, =], k = 1,2, q (2.42) 
相应 地 ， 可 以 将 记忆 对 刺激 (关键 模式 )x 的 响应 简化 为 
了 = 有 +7; (2,43) 
其 中 
= Sl (x! )9， (2.44) 


式 (2,43) 石 边 的 第 一 项 代表 ”期望 的 "响应 多 ; 所以， 可 以 将 它 看 作 是 实际 的 响应 了 AY “fe” 
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部 分 。 第 二 项 y, ALORA", ERRORS x, A IZ E N EE 
生 的 。 噪 声 向 量 是 引起 回忆 误差 的 根源 。 

在 线性 信号 空间 的 情况 下 ， 我 们 可 以 将 一 对 向 量 x Ax, RABEL x Ax, 的 
内 积 再 除 以 它们 各 和 白 的 欧 几 里 德 范 数 或 长 度 的 乘积 ， 表 示 为 


COS{ x, X; ) = taili (2.45) 
符号 x | RÆ x, ROLE, EAA x, 的 能 量 的 平方 根 : 
lx, ll = (WR) = BP (2.46) 


WIESE, TERE 4 BARA LAA PGES. Ak, FER TAT Lee 
(2.45) Ne ZEA 


cos(x,,xX,) = & X, (2.47) 
我 们 可 以 把 式 (2.44) 中 的 噪声 同 量 重新 定义 为 
v, = wile. ly, (2.48) 
现在 看 出 ， 如 果 关 键 癌 量 是 正 交 的 (也 就 是 说 ， 在 欧 几 里 德 意 义 下 互相 垂直 )， 那 么 
cos(x,,x,) = 0, kj (2,49) 
AEIR p v, 为 0。 在 这 种 情况 下 ， 响 应 了 等 于 yY 。 若 关键 向 量 为 正 交 集合 ， 即 满足 条 件 
r l, k=} 
ws = io hot | (2.50) 


那么 ， 联 想 记 忆 是 完全 的 。 

现在 ,假定 关键 向 量 满足 式 (2.50),， 那么 联想 记忆 的 存储 能 力 的 限制 是 多 大 呢 ” 换 唐 话 
Ui, HEAT SE APA RA ES DNR? KRAMER + BEF ICI MWA, 
Ars — TERRA eS PS BR I. MEH, WE r 是 这 样 一 个 工 x m 
维 丁 阵 的 穆 ， 那 各 r 过 minf mm)。 在 相关 记忆 中 ， 记忆 第 阵 M 是 mx m WER, HF m Æ 
输入 空间 的 维 数 。 因 此 ， EIER M 的 秩 受 维 数 m 的 限制 。 我 们 因而 可 以 正式 地 说 准确 无 
误 地 存储 在 相关 和 矩阵 记忆 中 的 模式 数目 决 不 可 能 超过 输入 空间 的 维 数 。 

在 洋 际 生活 中 ， 我 们 通常 会 发 现 提供 给 联想 记 世 的 关键 模式 既 不 是 正 交 的 ， 世 不 是 彼此 
珊 度 分 离 的 。 内 此 由 式 忆 .34) 的 记忆 年 阵 所 表征 的 相关 矩阵 记忆 有 时 会 很 混乱 而 且 容 易 产 生 
错误 。 也 就 是 说 ， 记 忆 有 时 会 偶 砂 识别 出 或 联想 以 前 从 未 见 到 或 相关 联 的 模式 。 为 了 说 明 联 
想 记 忆 的 这 一 属性 ， 考 虑 一 个 关键 懂 式 集合 

(Nie SR Ra ok: 
和 一 个 相关 记忆 模式 集合 

Faal Foni oy, 
AS ARETE fa Ss SAKA OE, RIJG AHE communi HEA RRR 
GE ix, BURELA RAPERA x Ax, 内 积 到 的 下 界 ， 假 定 M 表示 由 对 
RRN RE IXe | 和 与 式 (2.34) 对 应 的 记忆 模式 集合 17。| 的 联 息 记忆 训练 导致 的 记忆 第 
PEo RERT 1% | 中 的 每 个 模式 为 单位 向 量 { 即 具有 单位 能 量 的 向 量 )， 对 于 1% | 中 挑选 出 
的 刺 油 所 对 应 的 记忆 啊 应 由 式 (2.39) 纵 出 。 进 一 步 假 设 
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II ee SS iM at m m = 


“EX ey, Wkye|j (2.51) 
MPR y ER, PAIL HAE a y SHG Is. i 中 其 他 任何 一 个 的 关键 模式 区 分 开 来 。 
假如 该 集合 的 关键 伐 式 其 有 
X= %+V¥ (2,52) 
BEIR, HEP v BSL, IIRA HAE eI x, FPR MS y 而 不 是 原来 实际 用 
来 训练 的 模式 对 ; 欧 和 而 表示 以 前 从 未 见 过 的 一 对 模式 。 这 种 现 锭 可 以 称 为 动物 远 孝 
(animal logic), EZERT AR (Cooper, 1973 )， 


2.12 BEW 


ETAT RR TORRES aE, FR AS BS UE PEASE, 
时 间 是 万 外 PE, 462.10 THIN Ss ES Ce. RRS) IE h 
HEEE. AR BP ABH AAAA RRA RAD APA BE. BOR a sy Ay 
能 让 它 的 行为 因应 它 的 行为 空间 中 事件 的 时 间 结 构 (Gallistel,1990)。 

从 理论 上 讲 ， 妆 神经 网 络 处 于 一 个 静态 的 环境 ( 即 环境 的 统计 特性 不 随时 间 变 化 )}， 网 络 
对 环境 的 重要 统计 性 质 可 以 在 教师 监督 下 进行 学 习 。 特 别 是 ， 网 络 的 罕 触 权 值 可 以 通过 网 络 
与 代表 环境 的 数据 集 的 训练 过 程 和 而 计算 得 到 。 一 电 训 练 完成 ， 网 络 的 突 触 权 俏 就 可 以 捕获 环 
声 的 基本 统计 笔 构 ， 随 后 就 可 以 " 冻 绊 ?它们 的 值 。 这 样 一 来 ， 学 习 系 统 依靠 这 种 或 那 种 形式 
的 记忆 ， 回 已 或 者 利用 过 去 的 经 验 。 

淮 而 ， 环 境 往往 是 非 静 止 的 ， 即 由 环境 产生 的 洒 载 信息 的 信号 的 统计 参数 随 痢 叶 间 发 后 
变化 。 在 这 种 情况 了 下， 传统 的 有 监督 学 习 方 式 是 不 适合 的 ， 因 为 网 络 没 有 相应 的 必要 的 方法 
来 跟踪 它 所 处 环境 的 统计 变化 。 汐 了 克服 这 些 不 足 ， 希 望 神 经 网 络 腾 好 可 以 以 一 种 实时 的 方 
式 ， 不 断 地 根据 输入 信号 的 变化 及 时 调整 自由 贿 数 。 因 而 自 适 应 系统 针对 每 一 个 不 问 的 输入 
作出 新 的 响应 。 换 言 之 ， 自 适应 性 系统 的 学 习 过 程 永 不 停息 ， 系 统 在 进行 信号 处 理 的 同时 进行 
学 避 。 这 种 形式 的 学 习 就 叫做 持续 学 习 ({eontinuous leaming) 或 飞翔 式 学 习 {leaming-on-the-fly)。 

线性 自 适 应 滤波 器 束 是 设计 用 来 作为 持续 学 习 的 。 它 是 建立 在 线性 组 合 器 下 的 ( 即 在 线 
性 模式 下 运算 的 单 神经 元 )。 尽 管 它们 的 结构 简单 (也许 正 是 因为 如 此 )}， 它 们 才 被 广泛 地 应 
用 于 各 种 不 同 领 域 当 中 ， 如 雷达 、 户 纲 、 通 信 、 地 震 学 和 生物 医疗 信 导 处 理 。 线 人 性 自 适 应 性 
滤波 极 的 埋 论 已 经 发 展 到 了 :个 高 度 成 熟 阶段 (Haykin ,1996; Widrow and Stearns, 1985 )。 和 但 是 
非 线 性 目 适 应 性 过 滤器 还 未 能 达到 同样 的 水 淮 -"1。 

具有 持续 学 习 特 性 且 以 神经 网 络 作为 它 的 实现 工具 ， 我 们 必须 要 解决 的 问题 是 : 神经 网 
络 旭 何 使 它 的 行为 适应 它 的 行为 空间 中 输 和 人 信和 叶 蛮 化 的 时 间 结 构 。 解 闫 这 一 基本 问题 的 -… 个 
方 曾 是 认识 到 非 鲜 正 过 程 的 统计 特性 通常 变化 很 慢 ， 其 过 程 在 一 个 足够 短 的 时 间 内 考虑 为 协 
Fae), FR: 

* 产生 话音 伟 号 的 机 制 存 10 至 30 SEAT UA BAAR. 
© 在 几 秘 内 从 海洋 表面 返回 的 雷达 保持 基本 平稳 . 

© 对 长 期 大 气 项 报 ， 以 分 钟 计 的 天 气 煞 据 可 认为 基本 平稳 . 

。 在 以 月 和 年 计 的 长 期 趋势 中 ， 以 天 计 的 股市 数据 可 认为 基本 平稳 ， 

由 此 我 们 可 利用 随机 过 程 的 伪 平 稳 性 质 ， 根 据 输入 人数 据 的 统计 波动 在 某 些 固定 的 时 间 间 


ww ai bbt.com TAAWAOAA 





FILE dl 


对 学 习 的 里 好 的 动态 方法 , 我 们 可 以 好 下 处 理 
。 对 输入 数据 挑选 足够 短 的 时 间 窗 1， EA RRA A RE, BA Se 
网 络 ， 
© 当 收 到 一 个 新 的 数据 样本 时 ， 持 齐 最 早 的 数据 样本 ， 辐 后 移动 一 个 时 间 单 位 为 新 本 
RAETH, Breil. 
* 利用 更 新 的 数据 窗口 重新 训练 网 络 ， 
© 在 连 经 的 基础 上 车 复 这 个 过 程 。 
从 而 我 们 可 蓉 利 用 时 序 例子 使 网 绍 经 过 持续 训练 在 吉 经 网 络 设计 中 建立 时 间 丫 构 。 根 据 
这 个 动态 方法 ， 神 经 网 络 吕 看 作 是 由 线性 日 于 应 滤 浙 禹 排 广 的 非 线 性 自 适 应 滤波 器 。 但 是 为 
了 非 线性 日 适应 让 波 种 的 这 个 动 念 方法 可 行 ， 可 用 的 资源 必须 足 驶 快 使 得 在 -个 采样 周期 内 
完成 所 有 撒 述 的 计算 ， 只 有 这 祥 恋 波 冲 才能 和 输入 宰 化 保持 同步 。 


2.13 学 习 过 程 的 统计 性 质 


本 笃 的 最 后 部 分 讨论 学 习 的 统计 方面 ,和 症 这 里 当 神 经 网 络 通 过 -个 学 半 算 法 循环 训练 
了 时， 我 们 所 关心 的 不 是 权 同 量 w 的 总 变 ， 而 是 章 标 函数 赤 世 和 由 神经 网 络 所 实现 的 "实际 ” 
eax F(x, wile, Hema x RAS. RST AR, 
神经 网 络 只 是 通过 训练 可 以 对 一 个 物理 现象 或 环境 的 经 验 知 识 进 行 编码 的 方式 之 一 
“经 验 知识 "这 里 指标 志 着 环境 特征 的 一 组 测量 。 更 具体 地 ， 考 虑 一 个 随机 现象 的 例子 ， 它 由 
包 人 有 一 组 独立 变量 的 随机 问 量 X 和 表示 一 个 依赖 变量 的 随机 标量 D 描述 。 MAPLE ee XY 
TUR UA ETA CAA SM. AKATE D 是 一 个 标量 的 假设 仅仅 是 为 了 简化 说 
明 而 不 失 …' 般 性 。 同 时 假设 我 们 有 以 | 所 ;表示 的 随机 癌 量 飞 的 不 个 实现 ， 以 及 用 本 | 
表示 的 随机 标量 D 的 一 组 对 应 的 实现 。 这 些 实现 (测量 ) 构 成 了 用 
T = \(x,,d4,) ti", (2.53) 
ARAVA, HIRI A X A oD ZARA, PR Pn el ee a A 
( White, 1989a) 
E RE (2.54) 
进行 讨论 ， 其 中 A ) 是 其 自 灾 甘 问 呈 的 一 个 确定 性 旺 数 ，8 是 一 个 随机 期 望 误差 ， 它 代表 了 
我 们 对 D 入 之 间 依 赖 闫 条 的 “无知”。 由 式 (2.54) 描 述 的 统计 模型 称 作 回归 模型 ; ER 
述 在 图 2-20a 中 。 期 望 误差 gs-… 般 是 - -个 市 有 鸭 征 为 0 和正 的 发 生 概 率 的 随机 变量 ,天 此 基 
mi, A 2-20a 的 回归 和 神 型 有 两 条 有 用 的 性 质 : 
1. 给 定 任何 实现 x， 期 望 误 差 & MHAE, B 
Ele |x] = 0 (2.55) 
其 中 五 BSCE ARE. PEACE ETC, ie AE 2 Bae fx ER BHA 
X= x 的 情况 下 居 模 型 输出 D 的 条 件 均 值 ， 表 示 为 
f(x) = ELD |x] (2.56) 
kt FAARIRO. MARO. SH. 
2, 期 望 误 差 « 与 回归 图 数 AETH; 即 
Elef(X)] = 0 (2.57) 
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fas] ROTERE AMER RE, CARRI aA KRM AT D 的 信息 都 已 被 


BABLA fC KIS PP. (2.57) AEB EBNF :; 
E ef(X)| = ELEle (X) 1 x]] = ELX Elei x}] = ELX) - 0] = 0 
PA 2-20a BY EA ET LP I aS, EB SE A] SX PR TT 
(Rite D, K 2-20b ER LEAD” BR, RA PREF HS SS SB p 
LH UI AE AR Be 7s A a A he ET A 2 | SS fo] E w, FE AR 
J sy (2.58) 
实际 上 ， 仲 经 网 络 提 供 了 一 个 对 图 2-20a AQT RA”, SS de pT A al x BY 
SE By Wa ie Be as W BB BL Be i 
Y = F(X,w) (2.59) 
其 中 F(+ pw) AL es 2 Se A BA -Ah A AEROS HAART ， 权 值 向 量 
woh Be) 4 ER tT eh Be 





ei La 
ECw) = > Dd ~ F(x wW) Y (2.60) 
D= 
E 
a) 回归 模型 (教学 的 ) b) 神经 网 络 模 钵 (物理 的 ) 


412-20 随机 环境 模型 


获得 ， 其 中 使 用 因子 112 是 为 了 与 早先 的 表示 法 和 和 后面 各 章 中 的 表示 法 保持 一 致 ， 除 了 比例 
内 了 于 122 以外， 代价 孙 数 吉 (w) 是 期 望 响应 d 和 神经 网 络 实际 响应 y 之 间 在 整个 训练 数据 集 了 
上 的 平 术 着 。 使 用 式 (2.60) 作 为 代价 函数 意味 着 采用 了 “成 批 " 训 练 ， 所 请 “成 批 * 训 练 ， 我 们 
尽 指 对 神经 网 络 突 甬 权 值 的 调整 是 在 整个 训练 样 例 集 上 进行 的 ， 而 不 是 在 单个 样 例 的 基础 上 
ett > ;表示 作用 于 整个 训练 样本 了 的 均值 算 子 .在 均值 算 子 RSA PS RAE 
们 的 函数 表 为 x Ad; (x,d) 对 代表 训练 样本 了 中 的 一 个 例子 。 与 此 相对 照 ， 统 计 期 望 算 子 
EARLE XA D 的 整个 总 体 F， 了 是 它 的 一 个 子 集 。 算 子 记 和 和 ;之 间 的 差异 应 在 
下 面 的 讨论 中 仔细 区 分 . 
依据 式 (2.58) 描述 的 变换 ， 我 们 可 以 交换 的 使 用 F(x, WwW) 和 F(x, 了 ) 并 量 因 此 将 式 
(2.60) BE ASHER 
Elw) = yE" (d - p(x,T))] (2.61) 


Eml- F(x, FPI), 再 利用 式 (2.54)， 我 们 可 写成 
d- F(x, ) = (d —-f(x)) + (FR) - FORT)) = e+ (fx) - F(x,T)) 
遂 过 在 式 (2.6]) 中 代 人 此 表达 式 ， 然 后 展开 项 ， 我 们 可 以 将 代价 也 数 名 (Ww) 重 构 为 等 价 形式 


(w) = zile] + 4 Egl) — Fix, T) ] + Ez leCfCx) - Fix, 7))] (2.62) 
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。 通过 算 子 Er BIRRE, KIER. 5 HRA e HAAR A EPA, 
© WHERE e 属于 网 2- 20a WEHR, MERR F(x,Ww) 属 于 图 2-20b 的 神经 网 络 
从 而 ， 式 人 2. 所) 化 为 

Elw) = Fhsle] + 本 [CGO ~ F(x,9))] (2.63) 


FA(2.63)4 AUREM ERAS Z RFRA RE CPR R e A ai 
RAERERÆ, AAC yx TRARRE w, 就 最 小 化 关于 w EHL ARE Omna., Ea 
WAR. AHE. dep 4 ER OT eae Cw) Bee PR ew the eE RO R fx) AAA 
pa Fox, w) CEA BECP FFEA. maz, WFO wa enh 了 的 预测 器 的 有 
SOE HY A PAT RE SE LCA 

La (f(x), Flx,w)) = Elix) ~ FOND)) ] (2.64 } 
R- RRR REFERERE, AACA PH Fox, w HEA f(x) 的 近似 而 产 牛 的 偏 
AMARTA EE ee SEA Geman et al. , 1992) 。 


TEA% AR 


回忆 Z 式 (2.56) 的 使 用 ， 我 们 可 将 (ODA Fia, w BREA EA See Ze: 

Laf x, Fox,w)) = EI [CE[D |X = x] - Fx,7))7] (2.65) 

1X — FETA TAH A] Ea PERE EE T IET = LIPS AY BS pa f(x) = EL DIX =x] ABE 

ARL F(x,w) Zit RA BPE. TER, SPRY FE[ D1 入 = x] 关 于 训练 数据 样本 了 为 

TEEME, HERNIA 

ELD (|X =xi- F(x,9) = CELD IX =xl-£,_F€x,9))) 4 (EL FOx,9)] - FOx,7)) 

APRN Re EARE THA 本 [PRIx, 可 )]。 通 过 类 似 于 从 式 (2.61) 中 获得 式 (2.62) 那 样 

的 方式 进行 推导 ， 我 们 可 将 式 (2.65) 重 写 为 两 项 之 和 ( 册 问 题 2.22); 


L Gx), Fx, T) = Bow) + Viw) (2.66) 

其 中 Bow) Al Vow) BE MUP 
Biw) = El Fix, J)]- ELDIX = x] (2.67) 
Vow) = Eyi (E(x, J) - E F(x, T) J] (2.68) 


现在 ， 我 们 作出 两 点 重要 说 明 : 

1. 项 B(w) RA F Ox. AAP BET F PA RR fx) = EL DIX =x. 
TH AR HAR Fx, w) re RP 28 ARENE m He Epa f(x) = EL DIX=x]. 我们 
Rule ay Re Bw) BYE :个 逼近 误差 。 

2, 项 Vw) EE TIAA A LME ea Fx wR A 2. PA Se 
在 训练 样本 上 中 的 关于 回归 梢 数 六 x) 的 信息 是 不 充分 的 。 我 们 因此 可 将 方差 Vw AER 
估计 误差 的 体现 。 

图 2-2) Wr BPR AIR AR, AAIR ee eo A fA 
的 。 汶 了 取得 好 的 整体 性 能 ， 通 近 函 数 F(x,w) = F(x, 了 ) 的 偏 置 和 方差 者 必须 很 小 才 行 。 
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j E: T f(x) = / x | ! = 
K. W) A" | - è (x) 
- i i Ee iJ 
Fi X I 1 = jj 
IFN. | | T -= 
“aoa a, 


12-21 说明 求 解 回归 问题 的 各 种 误 莽 源 


不 位 的 是 ， 我 们 发 现在 以 通过 例子 学 习 并 用 训练 样本 大 小 是 固 完 的 神经 网 络 里 ， 获 得 小 
偏 置 的 代价 是 方 产 太 ， 村 十 单个 神经 网 络 ， 只 有 当 训 练 样本 的 数量 天 限时， 我 们 才能 指望 同 
HŽ ERARAS TERAS EA, Hri R EAA a E o E AUE Geman 
el al. 1992), W A/T 22 AR of RR E, MmMRERIEEA ARIJ AWE., HARR 
RA ARATE RAG TE, URAA., RIEA EE RA ERA EAER, Al 
如 ， 在 模式 分 类 的 情况 下 ， 在 下 述 意义 之 下 人 坑 兽 被 认为 是 “无 嘎 的 ”， 那 就 是 只 有 当 我 们 试图 
ERREI aR SAIS, fe TAR AIRE. REH., BAA REP ARE 
的 应 用 设计 偏 置 。 达 到 这 样 目 标的 -个 实用 的 上 方法 是 使 用 约束 网 络 结构 ， 这 样 的 网 络 结构 通 
常 比 通用 结构 有 昌 好 的 性 能 。 比 如 ， 药 束 以 及 由 此 而 来 的 凯 置 可 以 使 用 如 下 的 两 种 方式 林 取 
SRAM ARAM ARITA: (SR, APRA UL RRP A 
BY (2) 25 2 PE PS A BR BK IR local receptive field), MASE RAREST 
fea] ot BP RES RARE LeCun et al. ,1990a )。 这 些 网 络 菩 计 问题 在 1.7 THAR Tea. 


2.14 统计 学 习 理 论 


在 这 一 上 节 里 ， 我 们 通过 描述 一 种 学 习 理 论 米 继续 讨论 神经 网 络 的 统计 特性 。 这 种 学 习 理 论 从 
数学 角度 论述 如 何 控制 神经 网 络 的 推 | BE A AR ASAD. CERE EA FET. 


监督 学 习 模 型 包括 - :个 相互 关联 的 部 分 ， 如 图 rs 
2-22 所 未 TAs 从 数学 角 ea ay fh an F ( Vapnik, 1992, / E E 
1998): a Py) 


1. 环境 。 环 境 是 静态 的 ， 提 供 向 量 x, EWA 
— TE (AAMT AY RR AES) E EX. 

2.2, UPAR MRP RGA e E 
x 提供 一 个 期 望 响 详 4， 其 根据 是 条 件 累 积 概 率 分 
WAR Fy{xl1d)， 它 同样 是 固定 但 未 知 的 。 期 望 啊 
应 d 和 输入 向 量 x 的 关系 为 








d = fikv) (2.69) 
其 中 * ERT, Airgun E ARER” ee 
3. 学 习 机 器 (算法 )， 学 习 机 器 (神经 网 络 } 能 实 2-22 监督 学 习 过 程 的 模 
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现 -HAA -bR R, RA 
y = F(x, w) (2.70) 
其 中 y 是 学 习 机 器 对 输入 x 的 实际 响应 ，w -tH A SA RAE SW hi A hS 
CRIA). 
rh (2.69) (2. 70) Je FRE A SERRE E H o 
epee: oA fa] A LU Be A A i PE Be d Ee eS Px, WA a, ok 
HAS ae ih SE ASE ME SO) A ES EE cL (2.53) PRR ON Ta SE 
Bl op eo DIRE, AEREE SUF: 
T = |x, dO, 
ETERRA ZIUR UEG RA EP Fp x DAT PHARE, RR ee 
数 一 样 ，F lx dA CIARA. IB PUNTER RT Pea: VR 
A i(x,.d l ERTED EBRE EREE RA RAAE PERE ned Pla? 对 这 个 问题 的 一 个 
回答 在 于 使 用 由 Vapnik and Chervonenkis (1971) STAIR LA. Faz, Fea Sa 
fala A PU ETT iG. PE RS RB oe f(x) A ee ey = 
F(X, W) 
FA Lid, F(x. w)) BS A RE x A d A a E pr ro E pS ae 
Fix w) ZARA RAF. PRAGA Ld, Faw BE MES KRG RK AR, ESE 
MA d=f() ABE F(x,wW) 之 问 距 离 的 平方 ， 表 示 为 " 
L(d,F(x,w)) = (d - F(x,w)) (2.71) %| 
式 (2.64) 的 距离 平方 是 对 Ld, Fx. w) RAI -FHI e, FOR SES et (x, dZ E 
计算 ， 
有 关 统 计 学 习 理 论 的 天 部 分 文献 部 是 处 理 特定 的 损失 。 这 里 讨论 的 统计 学 习 圭 论 的 重要 
一 点 是 它 不 严格 依赖 于 损失 函数 Ltd ,F(x,Ww)) 的 形式 ， 在 本 节 后 面 我 们 将 限制 讨论 具体 的 
fin PARE 
损失 的 期 望 值 由 风险 沙子 


Rw) = | L(d, F(x,w)) dF x9 (x. d) (2.72) 


al 


定义 ， 其 中 积分 是 对 样 例 对 (x, dA A REO eR, Re Bee) te 
BRAF w) ,wew lz EKARRIZ Row). PRM, SR Rw) AKA 
的 ， 因 为 联合 累积 分 布 函 数 Fy (x, dR ERM. EWS, Habe A S 
被 包含 在 训练 数据 集 了 了 中。 为 了 克服 这 一 数学 上 的 朵 难 ,我们 采用 经 验 风 险 最 小 化 归纳 厚 则 
( Vapnik, 1982 )。 这 一 原则 完全 依赖 于 训练 数据 集 了 5 的 可 用 性 ， 这 使 得 它 非 党 适合 于 神经 网 络 
的 设计 原理 ， 


— ERA eM 


FRANC ZA. RINE ERII ST A en Te PE a a A a 
RR Bok REALE a a ,ay 。 如 采 对 任意 8 >0, MEKA 


Pllay-a|>8)70 YN” (2.73) 
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R., HIRR- MILET ee oe ELL ago 

LARE PAR WRA sup SHARES Wet Os) EAE RAR Re) ee x, 
对 于 所 有 yea, A reyo URRARH MRE, RIMES Reda Le, K 
ih, Rips ROY. H nAn, REMAIN Beate x, STA yO x 
yo 如果 这 样 的 标 基 趟 存在 ， 我 们 说 非 空 集合 如 的 下 确 界 汶 - ©. 

BÉRRE E ”给 定 训练 样本 了 = i (xd )1%,, SPR AAR Ld, F(x, 
WEA 

Rol W) = > D) Mdi Fl) (2.74) 


严格 一 致 性 FIBK Ld, Ei” w EAW, Lod. Fix, w REAA aa RR 
ARR Fy op x dE SW ORR AREARE RTE, HE 


We) = [w:|L(d, F(x.w)) = c) (2.75) 


HEP cl(-6,+0), Pa U AEE A GEEA, BREW), F 
ET A SU E.: 


inf Rap(W) -> inf Row), M No (2.76) 
有 了 这 些 定 义 ， 我 们 可 以 继续 讨论 Vapnik 的 统计 学 习 理论 。 


经 验 风 险 最 小 化 原则 


经 验 反 险 豪 小 化 原则 的 基本 站 想 束 是 处 理 式 (2. 对 ) 让 六 的 经 验 风 险 泛 郴 Rap (W) B 
新 的 沁 疼 与 式 (2.72) 的 风险 渗 困 的 不 同 之 处 在 于 两 个 期 望 方式 ， 

1. EASE R ARA PRR Fy p(X, dd). 

2. Ei E., ERIRE pE w 最 小 化 。 

F Wen FU FOX Wong, ) 表 示 最 小 化 式 (2.74) 中 的 经 验 风 险 泛 函 Rtw) 的 权 值 向 量 和 对 应 的 
MS. Fe, Sw, AFW 表示 最 小 化 式 (2.72) 中 的 实际 风险 泛 本 Row MARS EA 
对 应 的 映射 。w- 和 w, 都 属于 权 值 空间 六 。 我 们 现在 必须 考虑 的 问题 是 当 用 Rw) HMR 
(Wen) 间 的 差距 度量 时 ， 近 似 陕 射 F(z, we ) 与 期 望 映射 Fx,w,) 相 “接近 "的 条 件 。 

对 茶 一 固定 ww, KEZA Row’ ) 决 定 了 如 目 定 义 的 随机 变量 的 数学 期 望 

Z, = Ld, F(x.w*)) ah) 
HR, ERRARE Rew ) 是 随机 变量 Z 的 经 验 ( 算 术 ) 平 均值 。 根据 概率 论 的 主要 理 
论 之 一 的 大 数 定 律 ， 在 一 般 情 形 下 ,我们 发 现 当 训练 样本 了 了 无穷大 时 ， 渭 机 变量 Zy 的 经 验 
均 仁 收敛 于 它 的 期 望 伸 。 这 一 捉 实 为 使 用 经 验 风 险 沁 函 Rw) 来 代替 风险 江阴 R{W) 提 供 
了 理论 证 插 。 然 而 ， 正 基 由 于 Ze HARARE, RRA RE 
2 hy ALB YZ A Ra Cw) RAR (EL fe] Bet w。 问 样 会 最 小 化 风险 证 函 RCW)。 

我 们 可 以 按 下 述 的 方法 进行 ， 以 近 亿 的 方式 满足 这 一 需要 。 如 果 经 验 风 险 泛 责 Rel W) 
Tk wLAA— TREE e ALIE UTS Lz oe Rw), BBA RL Cw) A MET 吕 (Cw) 的 最 小 值 
Mids DEN 3。 从 形式 上 说 ， 这 意味 着 我 们 必须 施加 一 个 严格 条 件 使 得 对 和 任何 we Ww A 


ww ai bbt.com PO00ODOO 





“oT it ££ 63 


RE。 RN。 RN ER。 RN。 em。 ee ——_—=_ 9 = —=, =<, ee Eee Eee me — u p 


e> 0, EKA 

P( sup | RCW) - Row) i> e)- 90 “4 N >» æ (2.78) 
成 六 CVapnik ,1982 )。 当 满足 式 12.78j 时 ， 我 们 说 出 现 经 验 平 均 风 险 的 权 值 向 熏 评 到 期 望 情 
WY Bn Se AHR, QR FRE RE s， 我 们 能 对 其 > 0 确定 不 等 式 


Plsup | R(w) - R.0w) l>e) < a (2.79) 
那么 ， 结 果 是 如 下 的 不 等 式 也 成 立 : 
P(R( W) ~ Rw) >) < a (2.80) 


REZ, MARRIED. 79) Ma, ABA BPA L,I Ro Cw) BOE 
BACK. Won ) 输出 的 实际 风险 ROW) OIE BY Be} 48 uy ASE RUG OR Ow, ARE A EH 2e 
WSC, RITTERA U FEAA RERE 1 -a 同时 得 到 满足 {Vapnik,1982 ): 
R Were) — Reng Wa) <E (2.81) 
Rom ( W,) — Rw, ) < (2.82) 
2 PATE AR ESRD BIGE ST RK RE PES AE PRE w= Wa fl wow, AE e, A 
Woon Al w, 分 别 为 RCW) 和 ROW BUD A. TES 


Row Weng) EE Ral W) (2.83) 
JE EG AS SpA (2.81) 2.82 FR, SARS HER(2.83), RATT WEBRSS 
Rw...) ~ RCw,) < 2 (2,84) 


同样 ， 由 于 不 等 式 (2.81) 和 {12.82) 同 时 以 概率 (1 -oa 得 到 满足 ， 所 以 不 等 式 人 2. 由 ) 世 一 样 。 
FRA SLAY LD Peak AS EA 
RC Wag} ~ ROw,) > % 

以 概率 成立 ， 这 是 对 (2. 钻 ) 的 重 述 

BE, RTM ARAB RRR ESR RAYS RK PIRI RR 
( Vapnik, 1982, 1998) : 

1. RE MEIZ ee Row), FLAME LG YS ph 

Rug (W) = > >) Ld, F(x., W) 


它 基于 独立 同 分 布 的 样本 训练 集 (X od), G12. 

2. 令 ws 表示 在 权 值 空间 % 上 上 最 小 化 经 验 风 险 泛 丽 的 权 什 向量。 那么 只 要 经 验 风 险 泛 
PR R  W)— BAK RFS Bas IZ KR Woa SURE AM RE NES FAA AW, Rol W) 
FBG ot BSC ER URE RCW)，WwEW 的 最 小 可 能 值 。 

3. 由 

P( sup | RCW) ~ Reg (WwW) 1 > e) >O H N -> o 

证 久 的-- 致 收 侣 性 是 经 验 风 险 最 小 化 原则 - - 致 性 的 充分 必要 条 件 。 

为 了 对 这 一 重要 原则 有 一 个 自然 解释 ， 我 们 给 出 如 下 分 析 。 在 学 习 机 器 开始 训练 之 前 ， 
所 有 有 遂 近 瞳 数 都 是 等 四 能 的 。 随 着 学 习 机 器 训练 的 进行 ， 与 训练 数据 集 !x , a)}* ,相符 的 
ABET ea Cx, ,Ww) 的 可 能 性 增加 了 。 当 训练 数据 集 的 数量 增长 时 ， 输入 空间 因此 密 
WER, Ze Re KURZ ee OR. Cw) BS) OE UY el BS RL eR RC(W} 的 最 小 点 。 
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VC # 


ole RUIZ BR OR, Cw) BSC pT PR OR Ow) BY BU ee Be BT AA, 
们 基于 称 为 Vapnik-Chervonenkis 维 { 或 简称 VC 维 ) 的 重要 矢 数 ， 其 名 称 是 为 了 纪念 它 的 创立 用 
Vapnik 和 Chervonenkis, VC 维 是 对 由 学 刁 机 器 实现 的 分 类 函数 族 的 客 草 或 表示 能 力 的 测度 。 

为 了 以 适合 于 我 们 日 的 的 方式 描述 VC 维 的 概念 ， 考 虑 二 值 模 式 分 类 问题 ， 为 此 期 堡 啊 
WOE d 忆 10,1!。 我 们 使 用 术语 二 分 (dichotomy) 来 指 二 值 分 类 函数 或 判定 规则 。 令 之 表 示 由 
“SEA Ha ea, A 


F = Fix ww Cc W,F:R" W— |0,1!} (2.85) 
A> Pi AH) AY m- BSN TAREA, H 
P -ix €#si = 1,2,. ,NI (2.86) 
— 7 ee Le A RSLS) AA EEA FBS, FUL, ， 恒 得 我 们 有 
0,4 x E £, 
Fix,w)} = wee # (2.87) 


今 A (PD) ARE EVILS AMAA CO ee, Ag (DORREA IEI = TLE 
A (LWA, PISS CHM. RTL RF OK, WRAL) =2” ， 即 如 
PAY AT Ag BE ee E FRR Ag DARRAR. 

$2.1 A 2-3 ERTER 4TH yy. b, t 
x, Hx AZERA SS Ae. PPB te a BY 
PAX Fy 和 F 的 判定 边界 分 别 对 应 于 正确 的 类 ae OE. 





假设) 0 和 1。 从 图 2-23 中 ， 我们 看 出 函数 Fa Gia 
导出 一 分 SS 
D = | 多 = tM sR Mi oh, = [ath aT 4 | 
AAR, we F 导出 二 分 iia rn Es 
B= | 名 = {RP = ims Mt > 
对 于 包含 4 个 点 的 集合 了， 基 1981 =4。 从 而 A Hh 3-1 的 图 形 


A; (¥) = 7 = 16 
a 


回 到 式 (2.85) 中 的 二 分 总 体 儿 及 式 (2.86) 中 的 对 应 点 集 叶 所 勾画 的 一 般 讨 论 ， 我 们 现在 
可 以 正式 地 定义 VC 维 如 下 (Vapnik and Chervonenkis, 1971; Keams and Vazirani , 1994; Vidyasagar, 
1997 ; Vapnik , 1998): 

二 分 总 体 字 的 VC 维 是 被 于 所 分 散 的 最 大 集合 于 的 基数 。 

措 言 之 , Fi VC 维 (写作 YCdim{ 争 )) 是 使 Ay (N) = 2” BEAN HEREKE, F 
KARE Faw): wE 和 Wi 的 VC 维 是 能 被 机 器 学 习 的 训练 样 木 的 最 大 数量 ， 这 种 学 习 对 于 


分 类 函数 所 有 可 能 的 二 分 标记 是 无 销 误 的 。 
例 2.2 考虑 输入 向 量 的 m 维 空间 光 中 的 一 个 简单 判定 规则 ， 七 由 
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—ŮĖ | mm LS = ——<——s 








Fiy = piw x+ 5) (2.88) [95] 
描述 ， 其 中 x 是 个 m 维权 值 向 量 ，&8 JE. BRA g e PRR, H 


lL, vad 


ofr) = to a 
oh (2.88) PRAISE ALR AY VC BESS RO : 

VCdim(F) = m4] (2,89) 
ty Pika ite., SE REP 2-24 中 所 描绘 的 二 维 输 入 空间 ( 即 m = 2) 的 情况 。 在 图 2-24a 
Hh RUS x, x Mx, 二 个 点 。 对 这 三 个 点 的 三 种 可 能 标记 包括 在 图 2-24a 中 ， 从 中 我 们 
很 容易 看 到 最 多 一 条 线 就 能 分 敬 这 些 点 。 在 图 2-24b H, RNA. x, mA. Am 
Al x, 标记 为 0， Ax, Mx, 标记 为 1。 可 是 这 一 次 ,我们 看 到 点 Mx, 不 能 用 一 条 直线 与 所 
x, fx, 中 和 分散 开 来 式 (2.88) 中 所 描述 的 m = 2 判定 规则 的 YC 维 内 此 为 3， 这 是 与 式 
(2.89) 相 人 符 的 : 





图 2-24 $2.2 的 一 对 两 维 数 据 分 布 


例 2.3 用 VC 维 来 度量 分 类 (指示 器 ) 函 数 集 的 容量 ,我们 也 许可 能 期 望 带 有 很 多 日 由 
参数 的 学 习 机 器 会 有 高 的 VC 维 , 而 带 有 少数 的 自由 参数 的 学 习 机 器 会 有 低 的 VC 维 。 我 们 
现在 举 一 个 这 一 说 法 的 反例 站。 

pe PA on I. EMME 

f(x,a) = sgn(sin(ax)), a © R 
其 中 sgnt DEAS PR, WRAL N, 需要 做 的 是 按 到 能 被 分 散 的 六 个 点 。 这 
一 要 求 通过 选择 
x, = 10", i= 1,2,50, N 
而 被 函数 集 (a, AE. A TENERE 
dodanu AE 96 | 


所 确定 的 两 类 ， 我 们 根据 公式 
(1 - 


| N 
= x| 1 


来 选择 参数 a 就 足够 了 。 这 样 我 们 得 出 结论 ， 带 有 单一 自由 参数 a BIRARI S a, a) 
VC SEE IL Pe 
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VC 维 的 重要 性 友基 估计 


VC 维 是 一 个 与 儿 何 概 念 的 维 没 有 关系 的 纯粹 组 合 概 念 ， 它 在 统计 学 习 理 论 中 扮演 着 一 
个 中 心 的 角色 ， 这 将 在 后 向 两 小 节 提 供 的 材料 中 看 出 来 。 从 设计 的 观点 看 ，VC 维 也 是 重要 
的 。 粗 略 地 演 ， 为 可靠 地 学 习 一 个 类 所 需要 的 样 相 的 数量 正比 于 那个 类 的 WC 维 。 因 此 ， 
对 VC 维 的 估计 需要 痛 先 关注 。 

住 一 些 情况 下 ，VC 维 由 神经 网 络 的 自由 参数 决定 。 然 而 在 大 多 数 实际 情况 下 ， 很 难 通 
过 分 析 的 手段 计算 VC 维 。 虽 然 如 此 ， 神 经 网 络 的 YC 维 的 界 经 常 是 容易 处 理 的 。 这 时 ， 下 
面 的 机 个 结论 具有 特殊 意义 '” ， 


l. ON Ar HBA RO EAS, A (Heaviside) RI BAH 
lL, v2adD 


are lo ees 
上 的 VC 4A OCW log W), HY FASTARE Ee, 


这 第 一 个 结论 归功 十 Cover( 1968) Al Baum and Haussler( 1989) 。 


2. SNR T-Sh S BAM, Hee ee — > sigmoid 激活 函数 
| ee Suk 

| + exp{ 一 y) 

Ne YC 4% OCW), AF WAMB TD HK. 


这 第 二 条 结论 归功 于 Koiran and Sontag( 1996)}。 他 们 得 出 这 一 结论 是 通过 首先 证 明和 包含 两 类 
神经 元 (一 类 是 线性 的 ， 另 一 类 使 用 阅 值 激活 函数 ) 的 则 络 已 有 了 正比 于 W 的 YC 维 。 这 是 个 
相当 令 人 惊异 的 结论 ， 因 为 像 在 例 2.2 中 看 到 的 那样 一 个 纯 线 性 网 络 有 正比 于 OW VC 维 ， 而 
根据 第 一 个 结论 一 个 纯 阅 值 神 经 网 络 有 一 个 正比 于 W log WAI VC 维 ， 接着 ， 通过 求助 于 两 种 
EC (RAS BUSS sigmoid 神经 网 络 的 理想 结论 。 第 一 ， 具 有 国 值 激活 函数 的 神经 泡 由 具有 人 人 罕 
和 触 权 值 的 sigmoid 式 神经 元 近似 。 第 二 ， 线 性 神经 元 由 具有 小 窒 触 权 值 的 sigmoid 神经 元 近似 。 

这 里 需 注 意 的 重要 一 点 起 ， 多 层 前 馈 网 络 具 有 有 限 的 VC 维 。 


学 习 机 器 推广 能 力 的 构造 性 育 由 分 布 界 


讨论 进行 到 这 里 ， 我 们 发 现 考虑 二 值 模式 分 类 的 具体 情况 是 有 益 的 。 这 种 分 类 的 期 望 响 
mie MAY d 亿 10,1|1。 相 应 的 损失 明 数 只 有 如 下 两 个 可 能 值 : 


plu) = 


0, #y Fix,w) = ad 
Lid, Fix,w)) = 二 其 他 (2.90) 
EAER ET, SPA PETA 2.72) (2.74) FE RR R w) A LS E Ra (WwW) 得 


Blan PARE 
o ARZE RW de DEB KO EAR Be), FER A Piw) 
+ BERZE Roa (WEIR SZ CERT BEAR ARAL), FEA vw). 
现在 ， 根 据 大 数 定 律 (Gray & Davisson, 1986), -TERRAE NA RAEL PERF 
那 一 扣 件 的 实际 概率 ， 只 归 试 验 (假设 是 独立 同 分 布 的 ) 的 数目 趋 于 无 穷 大 。 在 这 里 讨论 的 情 
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ih, RAC RAE w, ER FURE, WR ec > O, Pia 
条 件 成 立 : 
PIL Pow) -viWwW) | > e})—>0 HN o (2.91) 
其 中 ， 是 避 练 集 的 大 小 。 然 而 ， 请 注意 ， 和 条件 (2 esteem ee v Cw) HY 
分 类 规则 { 即 一 个 特定 的 权 值 问 量 w} 也 会 最 小 化 分 类 误差 概率 Ptw)。 对 于 一 个 具有 充分 大 
的 数量 A AUR, vow) PL(W) 的 接近 服从 一 人 piping 蕊 规定 上 下面 的 条 件 对 
{TA e > O 都 成 立 (Vapnik,1982 ): 
P(sup | Piw) —- vow) | > ©) +90 H N— o (2,92} 
在 这 种 情况 下 ， 我 们 就 说 训练 误差 频率 到 lw) = P(w) SRI, 
VC 维 的 概 闪 在 一 私 收 颌 的 速度 上 提供 了 一 个 界 。 特 别 ， 对 下 YC AEA h 的 分 类 了 矶 数 集 ， 
站 面 的 不 等 式 成 (Vapnik ,1982,1998). 
eN 


P(sup | P(w) - v(w) |> £) < (228) ep(- 2 N) (2.93) 


其 中 六 是 训练 样本 的 天 小 ，。 是 自然 对 数 的 底 。 为 了 获得 一 致 收 化 性 我 们 希望 不等式 (2.93) 
的 石 边 对 于 太 N SWD., AF expl - 全 站) 在 这 这 _- RAAB. AAR NB EJ m 
Take PRE, W PRATEN A) 代表 函数 族 争 = | F(x, WwW);wE W! Be Kee A, (1) 4 
l>ha TRHA, AH Sauer 引 理 中 得 到 只 变 这 一 商 数 不 紫 增 长 太 快 ,右边 会 随 着 NGF 
KAAMESS; 划 果 VC 纶 下 是 有 有 限 的 ,这 一 要 求 就 得 到 满足 。 换 言 之 ， 有 限 的 YC 维 是 
经 验 风 险 最 小 化 原 旭 的 一 致 收 但 性 的 充分 必要 条 件 。 如 果 输 人 空间 六 有 育 限 的 基数 ， 和 任何 二 
AD hI IEF ARE: ATS ABB OVC 维 ， 昌 然 道 丛 题 并 不 一 定 成 立 。 
D 0 表示 事件 
sup | Plw) —- v(W) ime 
ACER, ABA, VAR I-a, FT UOT A AR weW, Page Sst: 


Pow) < vow) +e (2.94) 
(8 FSR (2.93) PHRF AE a 的 定义 ， 我 们 可 以 置 
te (eM) expt - eN) (2.95) 
A eg ( Nh ad) 表示 满足 式 (2.95) 的 特殊 值 。 由 此 ， 我 们 很 容易 得 到 下 面 的 重要 结论 (Vapnik， 
1992}. 
et VN, A,a) = Ai pre Peec (2.96) 


我 们 称 (tN, 上,a) 为 置信 区 间 ， 其 值 取 决 于 训练 样本 的 大 小 N 以 及 VC Eh A o 
式 (2.93) 中 以 6 = 多 (Wa) 描述 的 界 在 最 坏 的 情况 Pw) = 1/2 下 获得 ， 但 不 幸 的 是 并 
TEADET PD 成 站， 而 这 是 实际 中 感 兴趣 的 和 情况、 对 杆 小 的 Pow), JRE Rea PP eA 
FA ( 2.93) Ay eS By AR 7 Vapnik, 1982, 1998); 
| Pow) - viw ai" er 
P| sup 一 B ) | > e) < [< exp| - | (2.97) 
在 文献 中 ， 对 式 (2.97) 中 的 界 报 导 的 不 同 结 果 ， 取 决 于 使 用 不 等 式 的 哪个 特定 形式 来 推导 。 
不 过 ,此 们 玫 有 一 个 相似 的 形式 。 从 {2.97) 推 出 ， 岂 概率 1 -xw， 并 且 同 时 对 于 所 有 we wE 
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( Vapnik, 1992, 1998 ) 

Piw) = viw) +¢,(N,A.a.v) (2,98) 
AitPe (N hoo dE :个 新 的 置信 区 间 ， 它 是 用 前 一 个 冒 信 区 则 QQ (NA. RESIN, SOF 
(和 参看 刁 题 2.25): 





a 2 nr o » Cw) | 
e (NAY) = 28 NV ho{14,/1 4 a (2.99) 
eh Pe RBA TUE Re vw). BP Ow) =0， 它 归 为 特殊 形式 
aN, Aa, 0) 一 de N, h,a) (2.100) 


我 们 现在 可 以 总 结 一 下 已 经 为 一 致 收 倒 速度 推导 出 的 两 个 界 ; 
.一般 情 记 下， 我 们 有 如 下 一 致 收敛 速度 的 界 ，; 

Pow) = vw) + EtN,h,oa,v) 
其 中 2, (CN h,a v MFR (2.99) PHE. 
2, 对 于 接近 于 0 vp AUR vow), FTA 

Pow) = vow) + deo(N,h,a) 
它 为 和 具 实 情况 中 的 学 习 提 供 了 一 个 相当 精确 的 界 。 
3. 对 于 接近 于 1 的 大 训练 误 盖 vow), RIER 

Piw) < vOw) + tot MN,h,a) 

结构 风险 最 小 化 


训练 误差 是 其 有 茶 一 权 值 向 量 的 学 习 机 器 在 训练 阶段 所 犯错 误 的 频率 。 相 似 地 ， 泛 化 误 
差 答 定 义 为 当 用 机 骨 以 前 没有 见 过 的 样本 测试 它 时 所 犯 铺 误 的 频率 。 这 里 假设 测试 数据 昆 
从 与 训练 数据 相间 的 总 位 抽取 得 到 的 。 SR EP ZEA yw (OW) Av, (Ww). TER 
van( 客 ) 与 前 面 小 节 中 所 用 的 vt WwW) 相同 ; EB PRT vow) i tei. Sh Ay APR BK 
ORIF. wh we 入 | 关于 答 人 空间 8 的 VC HE. IBA, KER TBR, FR 
可 以 说 以 概率 1 -a, 对 于 训练 样本 的 数量 N > h, WA TO rg PB PF x, ww), 


化 误差 y (WH 比 保 证 风险 小 ， 保 证 风险 定义 HERDLRE (HE YEE) 
为 两 个 竞争 项 的 和 { Vapnik , 1992, 1998) K J pe 
Vaarat W) = Vian W) + ON, h,a, Yin) E e 
(2,101) 
其 中 置信 区 间 s (NW, 有,a ,vww) 本 身 由 式 (2.99) PË 置信 区 间 


定义 。 对 于 固定 数量 的 训练 柱 本 N, WRR 


Zee a Be VC BE 的 增加 而 单调 递减 ， 训练 误 郑 
而 置信 区 间 单 调 递 增 。 因 此 ， 保 证 风险 和 泛 
化 误 养 都 经 历 最 小 值 。 这 些 趋势 在 图 2-25 中 


0 VCE, h 
以 普通 的 方式 展示 出 来 。 在 达到 最 小 点 之 
BH, BLA ay TU AA 六 的 数量 是 太 小 了 ， o < (3) g D E 
在 这 个 意义 上 , 说 学 习 问 题 是 过 定 的 图 2-25 训练 误差 、 置 信 区 间 和 
(overdeterminedj。 超 过 最 小 点 后 ， 学 习 问 题 是 担保 风险 之 癌 的 关系 图 示 
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大 定 竟 ， 因 为 机 能 容量 对 于 训练 数据 是 太太 本 。 

所 以 、 解 决 上 监督 学 习 问 题 的 挑战 就 是 通过 使 机 各 容 量 与 用 于 目前 问题 的 训练 数据 的 有 效 
BA HDL AC, 结构 凤 险 最 小 化 方法 通过 使 学 习 机 器 的 VC 维 成 为 一 个 控制 变量 来 提货 一 个 归 
纳 过 程 以 达到 上 述 月 标 (Vapnik,1992,1998 )。 有 具体 了 地 说， 考虑 模式 分 燃 器 的 集合 | 开 (X， 凤 ); 
weW!, FEM n PRII WH ak Beg i 

F = | Fix,wiswe Wt, k = 1,2, ,7 (2.102) 
使 得 我 们 有 {参看 图 2-25) 


Piet. Cag. (2,103) 
EPIT SCE BAT". Aah, ARRIA RY VC 维 满足 条 件 
hh (2,104) 


XARA ARRERA] VC EE RAY. BA, SEP RU Re ee al a EA 

© WHR aes, Rv MtAw eRe (AWARE). 

© WER A Be) ORUER RAAF * ; K— RR e E E E R A 

C BURP UR CR Wr ALA BY Joe ee) A fg DT E eA E EE) (BA OT 

我 们 的 日 标 就 是 找到 一 个 网 络 结 构 ， 使 得 能 以 训练 误差 最 小 可 能 增加 为 代价 来 换取 VC 
维 的 降低 。 

结构 风 陪 最 小 化 原则 能 以 多 种 方法 实现 。 例如， 我 们 可 以 通过 改变 隐藏 神经 元 的 个 数 来 
ROSE VCH hh。 特 别 是 ， 我 们 评 居 全 连接 的 多 层 前 馈 网 络 的 总 体 ， 该 网 络 中 一 个 隐藏 层 的 神 
经 元 数量 以 单调 的 方式 增加 。 结 枸 风险 最 小 化 厚 册 表明， 这 一 总 体 中 最 好 的 网 络 是 保证 风险 
最 小 的 那 一 个 。 

VC 维 不 仅 是 结构 风险 最 小 化 原则 的 核心 ， 而 且 也 是 一 个 称 为 可 能 近似 正确 (PAC) 的 同 
等 强大 的 学 习 模 弄 的 核心 .在 下 节 讨 论 后 一 个 模型 ， 以 此 来 结束 本 章 处 理学 刁 的 概率 和 统计 
方面 的 最 后 一 部 分 。 


2.15 可 能 近似 正确 的 学 习 模 型 


可 能 近似 正确 {probahbjy approximately correct, PAC ) 的 学 习 模 型 里 功 于 Valiant(1984). MARY, 
PAC 模型 为 二 值 分 类 系统 中 的 学 习 和 推广 的 研究 提供 了 概率 框架 。 它 与 监督 学 习 紧 窗 相 关 。 

我 们 从 环境 时 人 于 。 一 个 跨 的 集合 称 为 梳 念 (concept)， 完 的 子 集 的 集合 称 为 概念 类 
(concept class}. — “ALS Hl (example) 是 具有 一 个 类 标签 的 论 域 中 的 一 个 对 象 (ohjeet)。 如 
采 该 例 是 概念 的 一 个 成 员 ， 我们 称 之 为 正 倒 (positive example}; 如 果 该 对 象 不 是 概念 的 一 个 
成 员 ， 我 们 称 之 为 反例 (negative example)。 提 供 例 的 概念 称 作 目标 福 念 。 对 于 -个 目标 概念 
c， 我 们 需要 长 度 为 N 的 训练 数据 的 序列 ， 由 

可 = {x ,clx,)| (2.105) 
fo”, APO RMS BRAG. BN, x ,Xs 是 根据 某 个 固定 但 未 知 的 概率 分 布 从 环境 多 
中 瑚 机 抽取 出 来 的 。 式 12.105) 中 有 如 下 两 点 值得 省 意 ; 
© Amie cf(x,) 被 当 作 从 多 到 10,11 的 一 个 函数 ， 而 且 etx ) 假 定 是 未 知 的 。 
© 这 些 例 通 各 锌 认为 旦 统计 独立 的 ， 这 意味 着 任何 两 个 例 ( 比 如 说 莹 和 xy) 的 联合 概率 
Pe RE ORS EL BS AAR. 


ww ai bbt.com TAAWAOAA 





101 


103 


a rr 


70 #2 # 

在 我 们 前 述 术 语 的 上 下 交 中 ， 环 境 区 以 等 同 于 神经 网 络 的 输入 空间 ， 自 标 概 念 等 同 丁 
网 络 的 期 望 响 应 。 

眠 坏 境 时 中 导出 的 概念 的 集合 称 作 概念 空间 半 。 例如， 概念 空间 可 能 会 包含 "字母 站 ， 
“SR BB" 等 等 。 这 些 概 念 中 的 每 一 个 可 能 以 不 同 的 编码 生成 一 个 正 例 集 合 利 一 个 反例 集合 。 
然 向 在 监督 学习 的 性 如 中 ， 我 们 有 男 一 组 概念 。 一 个 学 习 机 器 典型 地 代表 一 个 函数 集 ， 其 中 
的 每 个 琢 数 对 应 一 个 特定 的 状态 ， BN, LAE BREET ARIA EA", “FEE B'S, H 
=e Oy PL ARTA AS Ty AR BU SS) A AOR ARG ES, TE SS a HESS TS 
TH., TEMELE, WaT a) A ee Ih a Xa EA Se eT ae AY Bf x) 
BA F(x, w) FH) ce. 

ABA, BERNA 一个 日 标 概 念 c(t, PARLOR 1. Ris AH Aia 
米 和 学 会 这 一 概念 ， 这 个 神经 网 络 由 式 (2.105) 定 义 的 数据 集 了 训练 。 令 g(x) 扎 外 表示 与 这 个 
训练 得 到 的 得 入 - 输出 映射 相对 应 的 假设 。 评 价 学 习 过 程 是 否 成 巧 的 方法 之 一 是 度量 假设 
zana HRS ctx) 有 和 多 接近 。 如 果 giacca), 自然 有 误差 发 生 。 产 生 误差 的 原因 是 我 
们 试图 以 -个 聘 数 有 限 的 可 用 信息 为 基础 来 学 习 这 个 薄 数 。 训 练 谋 差 的 概念 定义 为 

Vem = P(XE #: a(x) < clx)) (2.106) 

这 个 式 中 的 概率 分 布 必 需 与 用 于 生成 样本 的 分 布 一 样 - PAC 学 习 的 日 标 就 是 确保 r 通常 是 

小 的 。 可 雇用 于 学 习 丰 法 的 域 由 训练 样本 了 的 大 小 控制 。 另 外 ， 为 学 习 算法 提供 了 两 个 控 
制 参数 ， 

© 误差 参数 EE 0,1]。 这 个 参数 指定 在 假 没 g(x) 对 上 自 标 概念 c{x) 的 一 个 良好 近似 中 


所 允许 的 误差 。 
* 置信 和 参数 BE (0.1]。， 这 第 二 个 参数 控制 构建 一 个 良好 通 近 的 可 能 性 。 
我 们 从 而 可 以 将 PAC 学 习 模 型 看 作 如 图 2-26 中 描 控制 参数 
绘 的 那样 。 







EELER TRIAT K PAG 学 习 模 型 正式 地 训练 祥 本 
陈述 如 下 (Yaliant，1984;，Keams and Vazirani, 1994; I(x, ot A í 

SLAM FNS. RRR EE E 
PAC 可 学 习 的 ， 如 果 存 在 一 个 算法 只 具有 如 下 性 质 : 对 图 2-26 PAC 学 习 模 型 的 杠 图 
于 每 一 个 目标 概念 "各 芷 ， 对 蛙 上 的 每 个 概率 分 布 ， 以 及 对 所 有 的 0<s<12 和 0<i<12， 如 
果 对 学 习 算 法 半 近 供 训练 例 集 3 = lx, cla 以 及 参数 se 和， 那么 学 习 算 法 平 至 少 以 概 
1 6 WIM — PIR ven se 的 假设 g。 这 个 概率 星 针 对 从 集合 了 中 在 抽取 的 贿 机 样本 以 及 可 
能 存在 于 学 习 算 法 关中 的 任何 内 部 稍 机 性 而 取得 。 样 本 大 小 N 必须 大 于 ss 和 的 一 个 函数 。 

换言之 ， 只 要 训练 样本 了 的 大 小 N 是 够 大 ， 在 神经 网 络 已 在 那个 数据 集 上 训练 过 之 后 ， 
很 中 能 的 情况 是 ， 由 网 络 计 算 的 输入 -输出 有 映射 是 “近似 正确 的 ”"。 注 意 ， 星 然 存 在 对 Ee 和 8 
KR, IEE N 并 不 一 定 依赖 于 目标 概念 c 或 者 和 的 基本 概率 分 布 ， 


位 本 复杂 性 
在 PAC 学 习 理 论 中 ， 对 实际 意义 有 特别 影响 的 问题 是 样本 复杂 性 问题 。 这 一 问题 的 焦 


HERE 
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REF ERE to RE Ba RS EIB fe OR SE) PARE 
选 撞 的 未 其 目标 概念 ec， 或 者 训练 集 了 的 大 小 应 该 老大 ? 

伞 本 复 沁 人 忻 问 题 与 VC 维 密切 相关 。 然 而 ， 在 继 绥 讨论 这 -问题 之 前 ,我们 告 要 定义 一 
个 相 容 概念 的 含 六 。 令 9 six. dL Ae SAR, HPAP x EX, 每 个 d EO, De 
Sr 为 在 环 境 交 之 上 的 目标 概念 。 WA, HES ce 星 与 训练 集 了 相 容 的 (或 者 等 价 地 ， 说 了 是 
Sc MBM), MRSA Leia NEY clx) = d, (Kearns and Vazarini, 1994 )， 现 在 就 
PAC 学 习 而 言 ， 关 键 不 是 一 个 神经 网 络 能 计算 的 输入 -Ah PARES, TE 26-09 VC 
HE SPP MAH. 我 们 有 分 成 两 部 分 给 出 的 一 个 重要 结论 (Riumer et al. , 1989; Anthony and 
Biggs , 1992; Vidyasagar, 1997) . 


考虑 具有 有 限 VC? hat 的 神经 网 络 。 
*。 任何 用 于 这 个 神经 网 络 前 相 客 学 习 算 法 是 PAC 学 习 算 法 。 
| 存在 常数 天 ， 使 得 对 于 任何 这 样 的 莫 法 ， 大 小 为 


N = E{ hlog{ +) + tog{ >) | (2,107) 
Noah REA, RP ce HRAZRA Fe 8 HBR, 


AMARRE; 它 可 应 用 于 监督 学 习 过 程 而 不 管 使 用 什么 类 型 的 学 习 算 法 
和 用 生生 成 标签 例 的 基本 概率 分 布 。 让 是 这 一 结论 的 高 度 一 般 件 使 其 成 为 神经 网 络 研究 文献 
中 受到 广泛 研究 的 主题 。 将 基于 VC 维 测量 的 界限 预测 的 结果 与 试验 结果 比较 ， 揭 示 了 很 大 
的 差异 “ 。 在 一 定 意 义 上 这 并 不 奇怪 ， 央 为 这 种 差异 仅仅 是 理论 测量 的 自由 与 分 布匹 关 的 、 
最 坏 情况 的 本 质 反 映 ， 并 且 在 普通 情况 下 我 们 总 可 以 做 得 更 好 。 


计算 复杂 性 


在 PAC 学 习 中 ， 需 要 者 重 关注 的 另 -个 问题 是 计算 复杂 性 问题 。 这 -- 问 题 涉及 学 习 算 
法 的 计算 有 殖 性 。 更 确切 地 说 ， 计 莫 复 杂 性 是 在 给 定 具 有 有 限 大 小 N 的 分 类 标签 样 例 时 ， 
涉及 三 练 神 经 网 络 ( 学 习 机 器 ) 所 需 的 最 二 情况 下 的 “运行 时 间 ”。 

年 实际 情形 中 ， 算法 的 运行 时 间 自 然 依 赖 于 基本 运算 执行 的 速度 。 但 是 ， 从 理论 的 角度 
看 ， 目 的 是 找到 不 依 顿 于 计算 所 用 设备 的 运行 时 间 的 定义 。 基 于 这 个 目的 ， 运 行 时 间 潍 至 计 
算 复 村 性 通常 从 执行 计算 所 需 的 操作 (加 法 、 弯 法 和 存储 ) 次 数 进行 酒量 、 

在 竺 算 学 习 算 法 的 计算 复杂 性 时 ,我们 想 知道 它 随 样 例 大 小 mt{ 即 被 训练 的 神经 网 络 的 
输入 层 的 大 小 ) 基 如 们 变化 的 。 为 使 算法 在 这 种 环境 下 在 计算 上 是 高 效 的 ， 运 行 时 间 应 该 
对 于 某 一 固定 整数 rel 为 0(m')。 和 在 这 种 情况 下 ， 说 运行 时 间 是 随 m 多 项 式 增长 的 ， 算 法 
本 导 被 称 为 一 个 多 项 式 时 间 莫 法 。 由 一 个 多 项 式 时 间 算 法 执行 的 学 习 任 务 通 常 被 认为 是 “ 竺 
oy Ph) {Anthony and Biggs, 1992) ) 。 

需要 注意 的 男 一 参数 是 误差 参数 6， 虽然 在 样本 复杂 性 的 情形 中 参数 8 是 固定 而 随意 的 ， 
TES IRE RE REY PR TAB A ER s 如 和 何 变化 - 直观 上 ， 我 们 预料 当 s 减 小 时 
研 容 中 的 学 习 任 务 会 变 得 更 困难 。 于 是 得 出 必须 对 算法 要 产生 一 个 可 能 近似 正确 输出 所 花 的 
上 时间 施加 -个 条 件 。 为 了 使 计算 是 高 效 的， 适当 的 条 件 是 运行 时 间 为 tre 多 项 式 的。 

将 这 些 考 虑 综合 在 一 起 ， 我 们 可 以 对 计算 复杂 性 作出 如 下 形式 化 的 陈述 (Anthony and 
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Biggs, 1992); 

一 个 学 习 算 法 关于 误差 参数 e、 祥 例 大 小 m 和 训练 集 的 大 小 NY 是 计算 有 北 的 ， 如 果 它 的 
运行 时 间 是 美 于 NW 多项式 的 ， 并 且 对 于 PAC FIJ AREER MOODA T mø! 
多 项 式 的 -。 


2.16 小 结 和 讨论 


和 在 本 草 中 ， 我 们 从 神经 网 络 的 角度 讨论 了 与 学 习 过 程 的 许多 方面 相关 的 一 些 重 烛 问 题 。 
这 样 一 来 ， 就 为 本 书 余 下 部 分 中 很 多 内 容 打 下 了 了 基础。 五 个 学 习 规 则 ， 即 误差 -修正 学 习 、 
基于 记忆 的 学 习 、Hebb #9. HEED AI Boltamann 学 习 ， 足 神 既 网 络 设计 的 基础 。 这 些 算 
法 中 一 些 需 要 使 用 一 个 教师 ， 男 一 些 则 不 集 要 。 重 要 一 点 是 这 些 规则 使 我 们 在 能 力 和 普 训 性 
1 都 能 超出 线性 白 适 详 过 滤器 的 范围 。 

在 人 研究 监督 学 习 时 ,一 个 里 要 的 条 件 是 " 教 如 ”， 它 能 够 在 误差 - 修正 学 习 中 发 年 错 误 时 
为 网 络 输出 提供 精确 的 修 趟 ; 或 者 像 Boltzmann 学 洁 那 样 将 网 络 和 白 册 运行 的 输入 利 输出 单元 
钳制 “到 环境 。 这 两 种 模型 在 生物 组 织 中 都 是 不 可 能 的 ， 咎 物 组 织 既 油 有 用 于 反 向 传播 误 盖 
修正 (在 多 层 前 馈 网 络 中 ) 的 精确 的 双向 的 神经 连接 ， 也 不 会 有 强制 接受 外 部 行为 的 神经 方 
To FAI, 正如 第 3 音 和 第 了 章 所 展示 的 那样 ， 监 督学 习 已 经 确立 了 它 在 人 工 神经 网 络 谨 计 
中 作为 一 种 有 力 范 例 的 地 位 。 

相反 ， 目 组 织 ( 无 监督 ) 学 习 规 则 (比如 Hebb 学 习 和 竟 争 学习) 是 受 神经 生物 学 的 思想 启 
发 的 。 但 是 ， 为 了 提高 我 们 对 自 组 织 学 习 的 理解 ， 也 沉 些 参看 Shannon 的 信息 论 以 获得 相关 
思想 。 这 里 我 们 应 提 到 Linsker(1988a,b) 的 最 大 至 信息 {maximum mutual information. Infomax) 原 
则 ， 好 同 在 通信 信道 中 的 信息 传输 那样 ， 它 为 自 组 织 神经 网 络 中 的 信息 处 理 提供 了 数学 的 形 
式 化 手段 。Infomax 原则 及 其 变形 在 第 10 jfi. 

如 果 不 提 到 达尔 文选 择 学 习 模 型 (Edelman,1987; Reeke et al. ,1990)， 对 学 习 方 法 的 讨论 
将 是 不 完全 的 。 选 择 在 进化 和 发 展 的 应 用 中 都 是 一 个 强 有 力 的 生物 学 原则 ,， 它 居于 已 经 透彻 
了 角 的 生物 认 知 系统 即 免疫 系统 的 核心 (Edqelman,1973)。 和 还 尔 文选 择 学 习 模 型 基于 神 爸 团 选 
择 理 论 。 它 预先 假定 ， 在 每 个 动物 生命 期 中 稿 神经 系统 以 一 种 与 进化 中 的 自然 选择 性 质 类 似 
的 选择 方式 运作 。 根 据 这 一 理论 ， 神 经 系统 的 基本 操作 单元 不 是 单独 的 神经 元 ， 而 是 强 连 接 
的 神经 元 的 局 部 团 。 神经 网 络 在 一 个 团 中 的 成 员 资 格 通过 神经 元 的 帘 甬 权 值 的 改变 而 变化 。 
性 经 元 间 的 局 部 竞争 和 侣 作对 形成 网 络 中 的 局 部 顺序 显然 是 必需 的 。 一 组 神经 团 称 为 指令 系 
统 {repertoire)。 一 个 指令 系统 的 组 由 于 神经 生长 的 随机 性 斋 而 对 重 闪 但 相似 的 模式 有 最 好 的 
啊 应 。 一 个 或 更 多 的 神经 团 响 应 每 个 输 和 人 模式， 从 而 保证 了 对 可 能 很 重要 但 又 由 和 平 意料 的 输 
人 模式 有 某 种 啊 应 。 达 尔 朗 选择 学 斗 与 在 神经 网 络 设计 中 通常 使 用 的 学 习 算 法 的 不 同 之 处 在 
于 它 假设 设计 了 很 多 子 网 络 ， 并 朋 只 有 那些 有 期 望 响 应 的 子 网 络 才 在 训练 过 程 中 被 选择 。 

我 们 以 对 学 习 的 统计 和 概率 方面 的 某 些 评述 来 结束 这 里 的 讨论 。VC 维 已 经 成 为 统计 学 
习 理 论 中 的 核心 参数 。 它 对 结构 风险 最 小 化 和 学 习 的 可 能 近似 正确 {PAC) 模 型 都 是 基本 的 。 
VC 维 是 将 在 沉 和 草 坷 论 的 所 齐 支 持 同 量 机 基本 理论 的 组 成 部 分 。 在 第 7 章 ， 我 们 讨论 一 类 
基于 和 惟 举 (hoosting) 的 委员 会 (committee} 机 ， 其 理论 植 根 于 PAC 学 习 ， 

当 我 们 继续 本 书 余 下 的 部 分 时 ， 会 有 很 多 情况 和 充分 的 理由 来 回顾 本 章 中 所 提供 的 关于 
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学 习 过 程 的 基础 的 内 容 : 
注释 和 参考 文献 


1] “A algorithm) 一 词 是 从 波斯 数学 家 Mohammed al-Kowarisimi 的 名 字 而 来 ， 仓 生活 在 9 | 106 | 
EA FP RTA CAA Re AP a EE. RC RT, toe TFA 
he] BEATE S Algorismus, Algorithm 就 是 这 样 入 生出 来 的 (Harel,1987)， 

[2] AS MRS TRUS, SE Dasarathy{1991) 编 辑 的 论文 集 ， 这 本 书包 含 f Fix and 
THodges(1950) 的 开创 性 工作 以 及 许久 其 他 关于 最 近邻 模式 分 类 技术 的 许多 重要 文章 ， 

[3] AT Hebb 突 甬 的 详 述 ， 包括 历史 评述 ， 2% Brown et al. (1990) 及 Frégnac Al Schulz 
(1994), FSPHISR ERAT A of 2 -} Constantine-Paton et al. (1990), 

4) 长 期 电位 一 Hebhb 突 触 的 生理 学 证 据 
Hebb( 1949) 为 我 们 提供 了 攻 虑 罕 触 记忆 机 和 制 的 方法 ， 但 是 近 四 分 之 一 世纪 过 去 后 他 的 
建议 填 获得 实验 证 据 的 点 持 ，1973 年 ，Bliss 和 Lomo E ELERE CTA PRS we 
蕊 区 中 的 汝 话 导 致 帘 触 改变 的 一 种 方式 。 他 们 对 进入 这 个 结构 的 主 通 道 应 用 电 和 刺激 的 
冲击 ， 同 时 记录 引起 突 触 的 反应 、 当 他 们 确信 获得 反应 生物 形态 学 的 稳定 基线 特征 时 ， 
性 人 应 用 简短 的 高 频 冲 击 训 练 。 而 当 他 们 总 结 测 斌 冲击 的 应 用 时 ， 他 们 发 现 响 应 的 振 
aE AGS . 记忆 研 和 多大 员 最 感 兴 趣 的 是 发 现 这 种 效果 可 以 持续 很 长 时 间 ， 他 们 称 这 
RELER A E R EAE long-term potentiation, LTP) : 

现在 每 年 有 几 吾 篇 关于 LIP 现象 的 论文 发 大， 我 们 知道 许多 它 的 固有 机 制 。 例 如 ， 
我 们 知道 电位 作用 被 限定 在 激活 通路 上。 我 们 也 知道 LTP 表现 出 许多 联 租 性 质 。 所 谓 
联想 性 厌 我 们 是 指 间 时 活 鞭 通路 间 的 相互 作用 。 在 特别 情况 下， 车 一 个 正常 情况 下 不 
会 寻 致 LIP 效果 的 纪 输 和 与 一 个 强 输入 配对 时 ， 则 弱 输 人 被 充电 。 这 之 所 以 被 称 为 联 
想 性 质 是 因为 它 和 学 习 系 统 的 联想 性 质 相 类 似 。 例 如 ， 在 Pavlov 条 件 反 射 试验 中 ， 一 
TG UT eR A 个 强 ( 食 物 ) 刺 激 配 对 ; 这 种 配 苛 产生 条 件 反 射 的 - :种 形式 ， 
Sey Ur it HR a ERK 

{EIR a OF ae a PE SE LTP SRB PE, ESS LIP aa © A FP 
MAE AHi Ti (Bt, Ki LRA OPA SAAN SAB Aa A 
R. Praise eA PAE, BRIE PRR, EE ey 
是 由 AMPA TARRE SA) ORE eh BY PG TO i Be Rs a 
称 而 来 的 ,但 它们 者 是 人 台 氢 酸 受 纳 器 )。 当 在 一 个 LIP 实验 中 记录 一 个 响应 时 ， 它 基本 
上 是 由 于 AMPA 受 纳 疾 的 注 滞 的 性 奈 。 在 突 甬 激活 后 ， 释 放 谷 所 酸 志 和 后 突 触 膜 的 受 
Aarb. AMPA 受 纳入 的 商 子 通道 部 分 张 开 ， 导 笋 作为 突 触 基本 响应 的 电流 。 

第 二 种 类 型 的 谷 毛 酸 受 纳 器 ， 即 NMDA 受 纳 器 ， 有 一 些 有 趣 的 性 质 ， 和 NMDA 受 
ol ae BE AY te ARDE AR ASS I, GRP BPE IR HE 
AMPA 3c2048 "4 BABAR ee, AMPA Sua athe ikem, m NMDA = 
Was lal Ay ce th eK ee PR RE. FRR BRT EROS. A 
AMPA 32:24 38 FAIRY Bl SiR A ASTRES CPE ERR, Al NMDA 受 [107] 
纳 辣 相关 联 的 高 于 通道 允许 钙 进 人 细胞， 虽然 征 的 运动 也 会 影响 膜 电 流 ， 但 共 主 要 作 
用 是 作为 触发 信和 号， 触发 一 连 串 的 事件 ， 导 致 和 AMPA 受 销 器 相关 联 的 响应 强度 的 持 
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[6] 


[8] 
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现在 我 们 有 关于 Hebb 突 触 的 机 制 。NMDA TIARE EaR ail Se eR CRE Tt ARR ) A 
RATER. COPTROUERET ARIE BE? RE aR eA RE, Am Sea) 
1— P55 Sy AA A Bet, SA PRE 9 TT SR SA OE FE AY 
EEZ Ba ASS SE AE BH) NMPA oe 2A ae 

虽然 Hebb te ABEL LER eS yA, Ee RA ay), EAA 
AEE EAA RATE. SSO EET LAX By eda A, F ARO A E 
IDEGA SSE ee SL el, WR A BB A EE A a, 9 
ARETE FS LSS. RES NFR CD a Be Pe AL, PRR A KM 
F (long-term depression, LTD). th A — SiR SOA OE RA RATE A. LTP 
BR BY ABCA Has A Bede, M ET Fe SS ae ek OA SE a a A o 
Fe ee =) AY BA] GE Sl von der Malsburg( 1973) 的 关于 条 级 皮 质 的 方向 敏感 神经 细胞 的 
目 组 织 ，EFukushimat 3975) 的 风神 经 认 知 机 着 名 的 月 组 织 和 多 层 二 经 阅 络 ， 双 illshaw and von 
der Malsburg( 1976) BY H HRR A Ekm, EAA Grossberg 1972 .1976a.b) 的 月 适应 
MATES ALE. FAA REE RPE SERA PaaS 
SFH (Durbin et al. ,1989)， 最 近 Ambros-Ingerson et al.(1990) 的 实 恰 工作 提供 竞争 学 习 
的 进一步 生理 学 上 的 证 据 ， 
如 图 2-4 所 本 ， 利 肯 钢 抑制 在 昼 经 生 牺 系统 很 流行 。 大 客 数 感觉 组 织 ， 即 眼球 的 视 网 
i, BR RRR ee ze, abe ep AL, AHE Ae fe Se a eA 
围 神经 元 中 产生 抑制 (Arbib, 1989; Fischler and Firschein .1987)。 在 人 类 感知 中 ， 仙 抑制 
表现 在 一 种 称 之 为 耳 赫 带 (Mach band) 的 现 旬 中， 号 赫 带 是 根据 物理 学 家 Emesl Mach 
(1865) 的 名 宇 来 秀 名 的 。 钢 如 ， 如 果 我 们 看 一 张 一 半 珊 一 半日 的 纸 ， 即 使 它们 有 同样 
的 密度 ， 我 们 将 会 在 日 的 部 分 看 到 比 日 更 昌 的 平行 于 边 措 的 一 个 带 ， 桩 墨 的 部 分 看 见 
比 黑 更 黑 的 平行 于 边界 的 一 个 出 。 马 替 带 不 是 物 弄 上 出 现 的 ， 而 是 帘 党 上 的 约 觉 ， 代 
表 由 仙 抑 制 的 差异 动作 引起 的 过 投射 或 天 投射 。 
John von Neumann 深刻 认识 到 统计 执 力 学 在 研 窒 计算 机 中 的 重要 性 。1949 年 他 在 fllinois 
大 学 所 作 的 关于 《4 复 淋 昌 动机 的 理论 和 组织》 的 五 个 报告 的 党 二 个 中 很 好 地 说 明了 这 一 
上 态 。 在 他 关于 4 信息 的 统计 理论 》 的 第 三 次 讲演 中 ，von Neumann 指出 : 热力 学 概念 也 许 
将 进入 新 的 信息 理论 。 有 一 些 强 烈 的 迹象 显示 信息 类 似 于 坟 ,并 且 坑 的 退化 过 程 和 信 
息 处 理 中 的 退化 过 程 是 平行 的 。 殷 如 没有 它 运 行 的 环境 的 统计 特征 ， 你 是 不 能 定义 一 
个 自动 机 的 功能 或 效率 的 ， 正 如 在 利用 表征 热力 学 环境 的 统计 特征 时 一 ' 样 。 甩 动机 环 
境 的 统计 变量 当然 比 标 准 热 力学 的 温度 变量 复杂 ,但 它们 在 特征 上 相似。 
看 来 术语 “增强 式 学 习 "是 由 Minsky({1961) 在 他 的 早期 入 工 管 能 研究 中 创造 的 ， 然 后 由 
Waltz and Fut 1965) 在 控制 论 中 独立 提出 。 但 是 "增强 式 ”的 基本 转 想 在 心理 学 的 动物 学 
习 和 实验 研究 中 已 出 现 (Hampson,1990)。 在 这 个 育 景 下 ， 由 Thorndike 的 下 述 经 则 北村 律 
AY LA a BAX — sa ( Thomdike, 1911, p244) : 

HFE — te LF SLAPS RM, RA Ae PP EE ea BY) ak I] 
BY AR EG Ay A BE A EK AR, OE EAE, EATER 
生 ; ABBY ARSE RT ae AR A AR, SAP TRI RAS 
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— ——_——— mm _ e ——_————LL = ee EE] 








PSs. DORR AEA. ETAR H RBI. PARNER, UR AY 
H rE oN UN a BA Ae Ee BR SER o 

HOR, BAIS TET — PET ARSC RR, EN SEAS 
XEU EEZ EE HB Sg td BS 
Res a ee, AR lI. RT BRAUER, BURY 
须 度 主席 摆 输 出 。 用 于 诬 量 -个 物理 变量 的 系统 称 为 感知 器 ， 因 而 再 准确 地 说 ， 图 
2-]3 的 方 框图 在 它 的 反馈 路 径 中 应 包 括 一 个 感知 器 。 我 们 省 略 了 感知 器 ， 晴 示 它 的 转 
Ae PRAM (be ce A ALD] o 

BERRAR JEA ER PP BR AB eA R E BE J ( Cherry, 1953; 
Cherry and Jaylor,1954)， 这 种 能 力 表 现在 听觉 系统 所 完成 三 种 过 程 的 组 合 中 : 
- E| ee eee see 每 个 频 站 提供 大 于 听 者 环境 的 有 意义 的 信 
Ho 在 分 割 时 听 首 利用 的 所 有 局 不 中 ， 室 间 位 置 也 许 是 最 重要 的 (Moray, 1959), 
。 注意 这 了 包 打听 者 集中 注意 芷 一 个 频道 而 忽略 其 他 不 相关 频道 的 能 力 (Chermy ,19531) 
. H 第 王 个 过 程 涉 及 从 一 个 频道 转换 到 另 一 个 乡 道 的 能 力 ， 它 也 许 通 过 "开启 " 输 
ATT cfs VA AT M F RIA i (Wood and Cowan, 1995), 

H AL ey Se Ze ee a A fa Frc i Ab Sc Ey SY 
ie th Be E k EE NE Be HH GE GE AE A RE ER CHE, IPS A 
Kolmogorov ( 1942) 42 (HIF ASG A Wiener 1949) Su v7 REE 

aSa, REFERI [a PE LA BEI. (AE 50 年 代 ， 
Zadeh( 1953), Wiener RHO EA ( Wiener, 1958)4E TAR BA LE, Wi HitA shew 
问题 的 性 质 作 了 许 密 工 作 。 

1954 年 Gabor 是 第 一 个 认识 到 非 线性 自 适 应 滤波 器 妃 想 的 人 ， 并 且 随 后 在 他 的 合 
作者 帮助 下 建 记 了 这 种 滤 流 天 (Caber et al. ,1960), 基本 上 Gabor 提出 了 绕 过 非 线 性 白 
适应 廊 波 数 尘 困难 的 捷径 ， 通 过 学 习 优 化 它 的 响应 构 告 滤波 器 。 滤波 器 输出 形式 上 可 
ZARA 


y(n} = Dy warn ) + Dw A rm 十， 


n= m=O 


其 中 x (0), (1), .x (N) 是 滤波 器 输入 的 采样 。 ‘这 个 多 项 式 现 在 称 之 为 Gabor- 
Kolmogorov 多 项 式 或 Volterra ASK SIMMS: : 硕 表 示 线 性 滤波 嚣 ， 由 一 组 系数 | yw 1 
表 和 入。 第 二 项 由 一 组 二 元 系 烙 ju。 ,| 表征 ， 足 三 线性 的 ; 这 项 包含 滤波 器 输入 的 两 个 
样本 的 乘积 ， 依 次 类 推 可 得 高 阶 项 。 滤 波 器 的 系数 由 梯度 下 降 调 整 使 得 极 小 化 日 标 
(期 户 ) 啊 应 dN ASCHER aR yy NIA. 
式 (2.7 了 中 的 代价 国 数 Lod, Fix, w MHATRE do SHMA AHE dF, AA 
pa AG Ad [ey Ek F(x,w)。 这 时 我 们 用 平方 欧 几 里 德 距离 

E(d,F(x,w)) = || d- Fx,w)l- 
VET Pa, RE EO. Ar YE 99 To) REAR. 
根据 Burges( 1998), H iH HETE Vapnik (1995) 中 的 例 2.3 JY DIF E. Levin Ñ J, 8. 
Denker. 


H i] Ac CRRA AB) A BY BU a A VC 维 数 的 上 界 由 Baum and Haussler( 1989) ## 
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(2. MEE, Maass(1993) EH, SF RAE, 一 个 更 小 的 下 界 也 成 六 ， 其 数量 级 为 
Flos Wa 

sigmoidal 神经 网 络 的 VC ER S — TP RAE Macintyre and Sontag (1993) PEH H). 
随后 Koiran and Sontag 1996) PÆ J Maass( 1993) 提 出 的 会 开 问 题 : 

"FLA sigmoid MiK eA oly) = 1/1 + e 2 ) 的 模拟 神经 网 络 的 VC AEE A An 
参数 个 数 的 多 项 式 为 界 ?” 

Koiran 和 Sontag 在 他 们 1996 F cet BA ag iol ae ole, TE A TAA 

Karpinski and Macintyre-( 1997) tA aa el Ae hin], FER SHAE T 
PRT Fh A ZEA TA DEB FPR ADE EY sigmoid 神经 网 络 的 VC 维 数 的 一 个 上 者 为 O 
CW). 这 个 圭 界 各 Koiran 和 Sontag( 1996) Se IR) k FEB) SQ ZEB Karpinski and 
Macintyre( 1997 E AB HN 9 Lo FEY Le o 
Sauer 定 埋 可 陈述 为 (Sauer, 1972; Anthony and Biggs, 1992; Vidvasagar, 1997): 

SF SRE SALE Wa ke, E VCdim (SF) =k, h SRA le hel, PA 
Pa: pa ADIR H Celh)", Hote 为 白 然 对 数 的 底 ， 
在 这 个 注释 中 我 们 给 出 文献 中 报导 的 样本 复 漆 性 和 相关 的 这 化 门 题 的 四 个 重要 研 客 的 

HJG, Cohn and Tesaurof 1992) 对 基于 VC 维 数 的 样本 复 打 性 恰 和 作 为 模式 分 类 器 设 
计 工 其 的 实际 虱 什 给 出 详细 的 实验 册 究 .特别 是 ， 如 计 了 检验 神经 网络 记 化 能 力 各 
Vapnik iit Y He THPS AA ARPEI AMARA RRRA. AA Ep 
界 是 Yapnik(1982) 定 义 的 

‘ree > OL Nlog[N)) (1 

其 中 oy tei Hike, AE VC BERK, N AE UII AZ). Cohn F Tesauro 给 出 的 结果 
fe BEY {ae AD ERG eS a E : 

EIK., Holden and Niranjan(1995) 4 fe I Cohn 和 Tesauro HARI, MRE T — I 
相似 的 问题 。 侯 有 二 个 重要 差别 需要 指出 : 

© 神经 网 络 所 做 的 所 有 实验 都 知道 YC 维 数 的 精确 结果 或 非常 好 的 界 ; 

© 特别 考虑 了 所 用 的 学 习 算 法 ; 

。 委 验 玉 用 现实 生活 中 的 数据 ， 

虽然 报告 的 结果 发 现 提供 样本 复杂 性 预测 比 呈 期 理论 提供 的 值 有 意 疼 得 多 , (A 
仍 由 许多 理论 缺陷 有 行 元 服 ， 

第 三 ，Baum and Haussler( 1989) 报 告 了 训练 线性 阅 值 神经 元 的 单 居 前 人 局 网 络 具 有 
展 好 证 化 能 力 所 需 的 训练 样本 大 小 Ne BEURER MEA RAGE, FHE 
价 证 化 性 能 的 测试 样本 服从 相同 的 分 布 ， 那 么 ， 恨 据 Baum 和 Haussler, MRI ELA F 
FAT SRE, MLT eee BZ kt 
C1) RP URS PY AE Pa TR IR BS Fe /2 
(2) Vi ARREARS ON OW 


N = o( Frog ¥) (2) 
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其 中 下 为 网 络 罕 触 权 值 数目 。 式 (2) 提 供 了 与 分 布 无 关 的 最 坏 情况 下 N 的 界 。 这 里 ， 
所 需 训 练 样本 的 实际 数目 和 式 (2) 计 算 的 界 之 间 又 有 一 个 巨大 的 差异 。 
最 后 ， 在 模式 分 类 任务 中 用 大 的 神经 网 络 时 ， 我 们 经 常 发 现 利 用 比 Cohn and 

Tesaurot 1992) 报 告 的 网 络 权 值 数 日 小 得 多 的 训练 样本 数目 表现 良好 ，RBartlett( 1987 ) 讨 
论 这 个 问题 。 在 Bartlet 的 文章 中 证 朋 ， 对 于 那 种 神经 网 络 上 其 有 良好 泛 化 而 突 触 权 值 
不 是 特别 天 的 任务 ， 是 由 松 值 的 大 小 而 不 是 权 值 数目 次 定 网 络 的 泛 化 性 能 。 

习题 

学 习 规 则 

2.1 式 (2.3) 描 述 的 增 量 规则 和 式 (2.9) 描 述 的 Hebb 规则 代表 两 类 不 同学 习 方 法 。 列 出 
这 两 个 规则 相互 区 别 的 特征 。 | 111 | 

2.2 7A) FASS IEM A P AR Se ey ae Ce ED) , EH -Hebb W (Mitchison, 1989) , 可 
以 实现 误差 修正 学 习 规 则 。 讨 论 误差 学 xy <: SE, 

习 的 这 种 解释 。 

2.3 图 2-27 表示 . 维 平 面 数 据点 
集 。 一 部 分 数据 点 集 属 于 类 @| 而 另 一 部 x 
7 RT RE,. 。 对 该 数据 集 构造 ; 

应 用 最 近邻 规则 产生 的 判定 边界 。 e * & 

2.4 考虑 一 组 人 ， 把 他 们 关于 某 主 a te e * 
MNRAS MART RES BR 
的 加 入 平 均 。 假 谨 在 讨论 过 程 中 ， 成 员 
的 意见 和 集体 意见 趋同 一 致 ， 则 他 的 意 
见 的 权 值 增加 ， 另 一 方面 ， 如 果 成 员 总 
是 不 同意 集体 意见 ， 那么 他 的 意见 的 权 
值 减 小 。 这 样 加 权 形 式 等 价 于 正 反馈 控 
制 ， 它 有 在 组 内 产生 一 致意 见 的 效果 
(Linsker, 1988a ) ,, 图 2-27 

讨论 所 描述 的 情况 和 学 习 的 Hebb 很 说 的 类 似 之 处 。 

2.5 一 个 Hebb 规则 的 三 六 形式 可 描述 为 : 

Aw,(n) = af (y(n Gs a)) - Buy (a) Fl y(n)) 
其 中 x(n) Al n AWRA RARE; FOOR GOA ENS B TEKRAR; Aw, (nr) 
为 在 时 刻 x ARIE w, eT fa Sa; (n) Al y(n) 的 响应 产生 的 改变 量 。 寻 找 {a) 平 衡 点 和 
(hb 这 个 规则 定 交 的 最 天 误 减 。 

2.6 一 个 幅度 为 1 的 输 人 信和 号 重复 应 用 于 初 值 为 于 的 罕 甬 连接 。 计 算 利 用 下 面 两 个 规 
则 时 突 触 权 值 的 偏差 : 

(a) FEFL (2.9) FAAI Hebb 规则 的 简单 形式 ， 很 设 学 习 举 参数 n=0.1。 

(在 式 (2.10) 中 拉 述 的 内 方差 规则 ， 假 设 前 突 触 活动 x =0 而 后 突 甬 活动 了 =1.0。 

2.7 在 式 (2.9) 中 描述 的 Hebb 突 触 涉及 使 用 正 反 局 。 验 证 这 个 陈述 的 正确 性 。 
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2.8 ” 考 漠 式 {2.10) 中 描述 的 关于 自 组 织 学 习 的 协 方 差 假 涡 。 BE RR AE ee 
REPE), weHAE (2.10) FAY Aw, (rn) 的 期 望 从 可 表示 为 
ElAws] = KEL yx, - yx) 
你 十 样 解释 这 个 结果 。 
2.9 根据 Linskert1986) ， 学 习 的 Hebb 假说 可 以 用 公式 
Aw, = nly, — Yalla: Ko) + @ 
表 小 ， 其 中 和 SARA AAS. a1. 4, x. y ERR. RHA k 
EER TER. AB 
1 = Dai) + G3 
aN, FP a AHER RAT ai Aas A, 即 El x,]=e[x,J-p. > 
EE CC 表示 为 输入 和 伍 号 的 协 方差 秆 阵 ， 它 的 第 说 个 元 素 定 义 为 
c = Elix -plx — p)] 
试 确 定 El Aw, lo 
2.10 给 出 网 2-28 网 络 中 神经 元 j 的 输出 y; 的 表达 式 。 你 可 应 冉 下 列 量 : 


x = i Mantas 判定 规则 
w= 三 从 输入 到 神经 元 i A Se aE 
(kA He 





cy = 从 神经 元 到 神经 元 j 的 侧 向 连接 
的 权 值 
y = 神经 元 j 的 诱导 局 部 域 





wa, 语义 水 平 的 误差 信号 
神经 元 7 成 为 获胜 神经 泡 应 该 满足 什么 图 2-28 
ep? 


2.11 俱 设 每 个 输出 神经 元 包括 日 反馈 ， 重 复 问题 2.10。 
2.12 侧 搞 制 的 连接 柑 式 ， 即 ” 近 激 励 而 远 搞 制 *”， 可 以 用 两 个 Caus 曲线 的 差 建 模 。 这 
两 条 曲线 有 相同 的 面积 但是， 用 于 激励 的 正 曲线 比 用 于 抑制 的 贷 曲 线 有 较 高 和 较 窗 的 峰 。 
也 就 是 可 以 把 连接 模式 表示 为 ， 
Ji _ ] a (5: 
Wix) = J Ino,” r Ja i 
FCP x FEST ERR Bh Ws STH PA, 一 半 是 白 的 一 半 是 黑 的 ， 
两 半 之 则 的 边界 简直 于 x 轴 。 
Bit o,=5, 6 =8 Alo, =1, 6 =2 时 这 个 扫 摘 过 程 的 输出 .。 
学 习 范 例 
2.13 图 2 站 给 出 目 适 应 语言 获得 系统 的 方 框 图 (Gorn,1992)。 根 据 机 器 对 输入 刺激 响 
应 的 适应 程度 的 反馈 ， 系 统 的 神经 网 络 部 分 的 突 触 连接 被 增强 或 减弱 。 这 个 系统 可 看 作 增 强 
式 学 习 的 例子 。 说 明 这 个 陈述 合理 性 。 
2.144 下 例 鼻 法 中 ， 刀 两 个 范例 属于 有 教师 学 习 和 无 教师 学 习 ? 
(a) 最 近邻 规则 
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(b) k — ETER MI 

(e) Hebb 学 二 

(d) Boltzmann £ +7 A I 

党 明 你 的 答案 的 理 出 。 

2.15 无 监督 学 习 可 以 用 在 线 或 离线 方式 实现 。 讨 论 这 两 种 可 能 方式 的 物理 含 闵 。 

2.16 考 虞 学习 机 器 面 对 象 棋 游 戏 结 果 ( 赢 、 输 或 平局 ) 信 人 性 赋值 的 困难 。 在 这 个 游戏 痛 
其 下 讨论 时 间 信 任 赋值 和 结构 信任 赋值 的 概念 。 

2.17 可 以 把 一 个 监督 学 习 任 务 看 作 增 强 式 学 习 尾 务 ， 其 中 把 系统 的 实际 啊 应 和 期 望 啊 
应 徘 近 的 某 神 度量 作为 增强 信和 号。 讨论 监督 学 习 和 增强 式 学 习 的 这 种 关系 。 

2.18 考虑 应 用 于 相关 建 阵 记 忆 的 关键 模式 的 下 述 正 交集: 

x, = [1,0,0,0] x =[0,1,0,0])" » = [0,0,1,0] 


相应 的 情 存 模式 为 

| ETI 
(a) 计 算 记 忆 定 阵 M. 
(b) 证 明 记 忆 完 全 联想 。 


2.19 再 考虑 问题 2.18 的 相关 算 阵 记忆。 应 用 于 记忆 的 刺激 是 关键 模式 x, 的 市 噪声 形 
x = 0.8, - 0.15,0.15, - 0.20]7 

ta) 计算 记忆 响应 yo 

(Bb) 证 明 啊 应 了 在 欧 几 里 德 意 交 下 和 存 情 模 式 y 最 接近 ， 

2.20 ”利用 下 例 关键 回 量 训练 自 联想 记忆 : 


n= fl-2 -337 m2] x = H3, -167 


(aA ee ZAR. EAS ZI EEA 2 ik? 

(B) 利 用 推广 的 Hebb AL] CANS ALM), TTR RRs. SA ARMS iciz 
KEA SIT. 

Cc) 把 关键 向 量 x 的 伪装 形式 即 输出 信息 

x= 00,33]7 i 

应 用 于 记忆 。 计 算 记 忆 的 响应 ， 将 结果 和 期 望 
啊 应 x, 比较 。 
自 适 应 

2.21 图 2-29 上 表 不 一 个 自 适 应 系统 的 方 框图 。 
fale We Af se LADERA MAB, ARN 
x(n -1) = | xfn—1),2(n —2),0°.x0€n —- m)l 

异型 输出 4 (5) 表示 对 过 程 现在 值 xf 的 佑 
iH. ERRITAR RES 

efn} = x{n) - #(n)} 
它 接 者 用 于 修正 模型 的 可 调 参 数 。 它 也 提供 转 
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移 到 神经 处 理 下 一 级 的 输出 信号 用 于 解释 。 在 一 级 接 一 级 的 基础 上 重复 这 个 操作 ， 系 统 处 理 


的 信息 逐步 担 口 质 基 (Mead,1990 ). 

与 出 图 2-29 中 描述 的 下 一 级 信号 处 理 的 细节 。 
统计 学 习 理 论 

2.22 根据 从 起 (2.61) 导 出 {2. 人 2) 的 相似 过 和 可， 导出 式 {2.66) 定 义 的 总 体 平均 函数 Lo [Ff 
(x), FCx,F DEAR. 

2.23 和 在 这 个 问题 中 我 们 蒿 望 计算 具有 和 平面 上 的 坐标 轴 重 合 的 算 形 区 域 的 YC 维 数 。 
证 明 这 个 概念 的 VC 维 数 为 4。 你 可 以 通过 下 列 方式 完成 证 明 : 

(a) 平 面 上 的 四 个 点 ， 以 及 有 边 与 一 个 坐标 轴 重 合 的 矩形 能 够 实现 的 二 分 ，; 

(b) 平 面 上 下 个 点 ， 以 及 有 边 与 一 个 坐标 轴 重 合 的 矩形 不 能 够 实现 的 二 分 ，; 

ce) 平 面 上 五 个 总 ， 以 用 有 边 与 一 个 坐标 负重 人 台 的 矩形 也 能 够 实现 的 二 分 。 

2.24 SERT ERLIE, EMRAM aE m, 向量 x 的 第 一 个 分 量 为 常 
E 1 从 而 分 类 占 相 应 的 权 值 为 偏 星 。 分 类 器 关于 输 人 人 空间 的 VC 维 数 是 多 少 ? 

2.25 不 等 式 (2.97) 定 义 一 致 收 化 速度 的 一 个 界 ， 它 是 经 验 风 险 最 小 化 原则 的 基础 。 

(a 假设 不 等 式 (2.97) 成 立 ， 验 证 式 (2.98) 的 正确 性 。 

(pb) 导出 定义 置信 区 间 e 的 等 式 (2.99)， 

2.26 继续 例 2.3， 证 明 图 2-30 中 的 四 个 平均 分 布 的 点 不 能 被 单 参数 指示 函数 族 f(x， 


a), a (RoR. 


1 2 3 4 
p00 $$ 
x= 


图 2-30 


2.27 ”在 非 线性 回归 环境 下 讨论 储 置 - 方差 困境 和 结构 成 险 最 小 化 的 关系 。 

2.28 《ai 由 具有 sigmoid 省 数 的 神经 元 组 成 的 多 层 前 鱼网 络 的 训练 算法 是 PAC 可 学 习 
的 。 验 证 这 个 陈述 的 正确 性 。 

(由 具有 靖 值 匆 锋 国 数 的 神经 元 组 成 的 任意 网 络 你 能 作出 类 似 的 陈述 吗 ? 证 明 你 的 答 
案 的 正确 性 。 
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3.1 简介 


在 神经 网 络 的 形成 阶段 (1943 - 1958), 一些 研究 者 作出 了 :开拍 性 的 贡献; 
* McCulloch and Pitist 1943)3| 入 神经 网 络 的 概念 作为 计算 的 上 其 。 
*。 Hebb{1949) 提 出 目 组 织 学 习 的 第 一 个 规则 。 
* Rosenblatt(1958) 提 出 感知 器 必 为 有 教师 学 习 ( 即 监督 学 习 ) 的 第 一 个 模型 。 
McCulloch - Pitts 天 于 神经 网 络 的 论文 所 造成 的 更 要 影 啊 在 第 1 章 中 已 经 得 到 了 了 苑 分立 
wR. Hebb 学 习 的 概念 其 种 程度 上 在 秆 2 SPSS CP. 在 本 人 鞋 中 我 们 将 讨论 Rosenblatt 
的 感知 器 。 
感知 器 是 用 于 北 性 可 分 模式 ( 即 模式 分 别 位 于 超 平 面 所 分 隔 开 的 末 边 ) 分 类 的 最 简单 的 神 
经 网 络 模型 。 基 本 上 它 由 一 个 具有 可 调 活 触 权 值 种 仿 置 的 神经 元 组 成 。 用 来 调整 这 个 神经 网 
络 中 和 白 由 参数 的 算法 最 早出 现在 Rosenblatt(1958,1962) 提 出 的 用 于 其 脑 感知 模型 的 一 个 学 习 
过 程 中 心 。 事 实 上， 如 果 用 来 训练 感知 器 的 模式 { 向 量 ) 取 自 两 个 线性 可 分 的 类 ，Resenblatt 
证 明了 感知 器 算法 是 收 合 的 ， 而 且 由 超 平 面 构成 的 决策 面 位 于 院 类 之 闻 。 算 法 收 钱 性 的 证 明 
被 称 为 感知 器 收 训 定理 。 建 立 在 一 个 神经 元 上 的 感知 侨 的 模式 分 类 被 限制 为 内 能 完成 两 类 
假设) 的 模式 分 类 。 通 过 扩展 感知 器 的 输出 屋 可 梁 使 感知 器 包括 不 目 一 个 神经 元 ， 相 应 地 我 
们 可 以 进行 多 于 到 类 的 分 类 。 但 是 ， 只 有 这 些 类 是 线性 可 分 时 感知 器 才能 正常 工作 。 重 要 的 
一 点 在 于 仅 关 心 作为 模式 分 类 熏 的 感知 冀 的 基本 理论 ， 我 们 只 需 考 虑 单个 神经 元 的 情况 。 有 
关 多 个 神经 元 的 理论 推广 是 很 平 第 的 。 
单个 神经 元 也 构成 一 个 自 适应 滤波 器 的 基础 ， 自 适应 被 波 占 是 不 有 峙 发 展 的 信号 姓 理 主题 
的 一 个 基本 功能 模块 。 自 适应 补 波 器 的 发 展 很 大 程度 上 要 归功 于 Widrow and Hoff(1960) 有 关 
最 小 均 方 (]east mean square, LMS) Bz (EKA delta 规则 ) 的 经 典 论文 。LMS 算法 虽然 实现 
很 简单 ， 但 在 应 用 中 有 很 高 的 效率 。 事 实 上 ， 它 在 线性 自生 应 滤波 中 起 着 关键 作用 ， 线 性 指 
的 旦 神经 元 在 线性 模型 下 运行 。 自 适应 滤波 豆 在 天 线 、 通 信和 系统、 控制 系统 、 雷 过、 声 纳 、 
地 震 学 和 生物 医学 工程 等 很 多 领域 都 有 应用 (Widrow and Steams, 1985; Haykin, 1996) . 
LMS 算法 和 和 感 基 器 本 庄 上 是 相关 的 。 因 此 我 们 把 它们 放 在 同一 章 里 来 学 习 是 适宜 的 。 


本 和 革 的 组 织 


本 章 分 为 两 部 分 。 第 一 部 分 包括 3.2 节 至 3.7 节 ， 处 理 钱 性 自 适 应 滤波 岩 和 LMS 算法 ; 
第 二 部 分 包括 3.8 23.1047, 4HE Rosenblatt 的 感知 髓 。 从 表示 的 观点 看 ， 我 们 发 现 先 讨论 
线性 自 适 应 滤波 冀 冉 讨论 Rosenblatt 感知 闪 较 为 方便 ， 这 和 它们 在 历史 上 出 现 的 顺序 相反 。 

在 3.2 节 讨论 自 适应 滤波 问题 ， 接 着 在 3.3 节 回 顾 二 种 无 约束 最 优化 技巧 : 最 速 下 降 
法 Newton 法 和 Gauss-Newton 法 ， 它 们 都 是 与 自 送 应 滤波 吏 研 究 有 关 的 。3.4 节 讨 论 线性 最 
小 二 乘 滤 波 器 ， 它 随 着 数据 长 度 的 增加 活 近 趋 于 Wiener 滤波 器 。Wiener 滤波 器 为 线性 自 适 
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MAE dt OF AIAG OP Re TERETE PE, E 3.5 TIE LMS 算法 ， 包 丘 它 的 
优点 和 局 限 性 。 在 3.6 节 探 讨 通 常用 来 评价 自 适 应 滤波 器 性 能 的 学 习 曲 线 的 思想 。3.7 节 讨 
论 LMS 算法 的 退火 时 间 表 。 

随后 转 回 到 Rosenblatt HUE AIAE, 3.8 节 提 供 一 些 与 其 运行 有 关 的 基本 考虑 。3.9 节 摘 述 
应 用 于 线 忻 可 分 类 别 模 式 分 类 的 感知 器 突 触 权利 向 量 的 调整 竺 法， 并 验证 此 算法 的 收 伍 性 。 
在 3.1I0 节 考 虑 感知 器 和 Gauss 坏 境 下 Bayes TERKA, 


本 章 以 3.11 节 的 总 结 和 讨论 作为 结束 。 x,(i) C 

1 TE EES 输入 x[i) D 未 知 动 输出 

3.2 目 适 应 滤波 问题 AS RL dtr) 
X(t) D 


Bye ah BAR, HERE. Rie D 
知 的 是 此 系统 在 离散 时 间 内 以 固定 速率 产生 的 一 系 
列 标定 的 输入 - 输出 数据 。 具 体 地 ， 当 一 个 m 维 的 
刺激 xf( 站 通过 此 系统 的 m 个 输 人 节点， 系统 产后 mE 
一 个 标量 输出 4 让 作为 响应 ， 如 图 3-1a 所 示 ， 其 
中 i = 1,2,…,n,…。 此 系统 的 外 部 行为 由 数据 





A. oli) È 


X a 





0 Qa} GD “ aa 
描述 ， 其 中 b) 
x[i) = [x rati) ,a i) 图 3-1 


了 中 的 样本 根据 一 个 未 知 概 率 法 则 是 同 分 而 的 。 输 中 末 获 动态 系统 ”D) 系 统 白 适应 模型 的 信号 流 图 
人 向 量 x(i) 的 维 数 称 为 输入 空间 的 维 数 或 简称 为 维 数 (dimensionality)。 
刺激 x( 已 能够 以 两 种 根本 不 同 的 方式 之 一 出 现 ， 一 种 是 空间 的 和 另 一 种 是 时 间 的 : 
. KDR m 个 元 素 代表 空间 中 的 不 同 点 ， 在 这 种 情况 下 我 们 称 x (i) Re HR 
( snapshot} . 
© XC iE] m TIRNA h A by 3 pe LTE A m -1 个 过 去 的 值 组 成 
的 集合 。 
我 们 面 对 的 问题 是 如 何 通 过 建立 一 个 简单 线性 神经 元 来 设计 未 知 动 态 系统 的 一 个 多 输 
人 一半 输出 模型 。 这 个 神经 元 模型 是 在 一 个 算法 的 影响 下 运行 的 ， 此 算法 控制 对 神经 元 的 突 
触 权 值 的 必要 调整 ， 同 时 记 住 以 下 要 点 ， 
© 此 算法 从 任意 设 定 的 一 个 神经 元 突 触 权 值 开 始 。 
* 为 啊 应 系统 行为 的 统计 变化 ， 突 触 权 秆 调 整 是 建立 在 连续 基础 上 的 { 即 把 时 间 加 进 算 
法 中 )。 
* 再 整 突 触 权 值 的 计算 在 长 度 为 一 个 采样 周期 的 时 间 用 里 完成 ， 
这 样 描述 的 神经 元 模型 称 为 自 适 应 泪 波 嚣 (adaptive fiter)。 明 然 在 作为 系统 辨识 的 一 个 
任务 背景 下 给 出 的 描述 ,但 自 适应 滤波 器 的 特征 还 是 对 很 广 的 应 用 有 足够 的 一 般 性 。 
图 3- tb 是 一 个 目送 应 溃 波 器 的 示意 图 ， 它 的 运行 由 两 个 连 急 过 程 组 成 
L 过 滤 过 程 ， 涉 及 两 个 信号 计算 ; 
” 一 个 输出 ， 记 为 y( 让 ， 它 被 产生 以 响应 刺激 向 量 x( 让 的 m 个 元 素 ， 即 vC), 


viih, Xm bids 
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© 一 个 误差 和信 号， 记 为 et 站， 它 是 通过 比较 输出 +i) ARIAS TR dCi). 
FEE, di teA— Pp Reais aks Bits. 
2. 月 返 应 过 程 ， 包括 根据 误差 e(i) 对 神经 元 突 触 权 值 的 自动 调整 。 
检 U 击 ， 这 两 个 共同 运作 过 程 的 组 合 构 成 一 个 图 绕 神 经 元 运作 的 反馈 环 ， 
因为 神经 元 是 线性 的 ， 输 出 y( 丫 恰 为 诱导 局 部 域 oli), B 
yki) = v(i) = 2; we (i), Ci) (3.2) 
其 中 wi Ci), wid, oo, Wa Ci) ARTE A i 神经 元 的 m PRR. PARRA 
可 以 表示 ¥ Ci) ARE x 让 和 w( 站 的 内 积 形 式 如 下 ; 
yli) = x" Ci)wli) (3.3) 
RE wi) = Lw Ci), wi wi)] 
注意 这 个 突 触 权 值 的 记号 已 被 简化 ， 不 包括 附加 的 标识 神经 元 的 下 标 ， 因 为 我 们 只 考虑 单个 
神经 元 。 这 种 考虑 贯穿 整个 一 章 ， 神 经 元 的 输出 y(i) 要 与 未 知 系统 在 时 刻 i 的 相应 输出 
dCi TEMAS. GAA. yS dO; 因此 它们 的 比较 结果 得 到 了 误差 信和 号， 
efi) = dli) - yli) (3.4) 
RATES c(i) ARIHI 70 RANA ME TARR A AS BRR BEY 
代价 函数 决定 的 。 这 个 问题 与 最 优化 紧密 相关 。 因 此 回顾 一 下 无 约束 最 优化 方法 是 适宜 的 。 
这 些 材料 不 仪 可 以 应 用 在 线性 自 适应 滤波 器 上 ， 还 可 以 应 用 在 一 般 神 经 网 络 上 ， 


3.3 无 约束 最 优化 技术 


考虑 代价 函数 6(w)， 它 是 一 个 以 未 知 权 值 (参数 ) 向 量 w 的 连续 可 微 函数 。 函 数 (w) 映 
St w 的 元 素 为 实数 。 它 是 一 种 度量 ， 用 来 选择 自 适应 滤波 算法 的 权 值 (参数 ) 向 量 w 使 得 它 
以 最 优 方式 运行 。 我 们 想 找到 一 个 最 优 解 w 满足 条 件 








Elw) (Ww) (3.5) 
Ein, BABAR AREARE, R 
ae GALE we DR BE w) (3.6) 
Bette Hah ee ef E 
Vé(w') - 0 (3.7) 
这 里 六 是 梯度 算 子 
Fel a (3.8) 
ERV E wE OP RA E E [ey E 


IE 96 2967’ 


Jw Iw, "Aw, 
— PRBS Bia RAI ACA RRA ERA E WR T E E : 
A — AAA t dE E wO aes, FARRAR wil, wl2), =, RRP RE 
Ew ERRA RRR PEA TE, Pp 
Elwin + 1) < lwnt) (3,10) 
这 更 win Biim gnii m woes 1264 FS. 
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ECA) Fir BA re A ll Be Ewe” EER AE EA ARRIER R BT iE , 
EA Hl Be A aye EIEII AE D o 

ERRARE = PARP BoE A a P BAB APS A HY OR tE A 
( Bertsekas, 1995a) 。 


RIE MPE 


在 最 速 下 降 法 中 ， 对 权 值 向 量 w 的 连续 调整 是 在 最 速 下 降 的 方向 进行 的 ， 也 就 是 它 是 
与 梯度 网 量 克 富 ) 方 向 相反 的 。 为 了 表示 方便 ， 记 为 
g= VEé(w) {3,11} 
因此 ， 最 速 下 降 法 一 般 表 示 为 
win +I) = win) ~ nein) (3.12) 
ik Hy HE PIE RL, PAP K (stepsize) N F 3 Æ AH (leaming-rate parameter), g(n) EWE 
wn ADEE ARE. AMEI n 到 n+1 的 过 程 中 算法 应 用 修正 
Aw(n) = win +1) — win) =- ngin) (3.13) 
式 43.13) 实 际 土 是 第 2 章 中 描述 过 的 误差 修正 公式 的 标准 形式 ， 
为 了 证 明 最 速 下 降 法 的 公式 满足 式 (3.10) 的 选 代 下 隆 条 件 ， 我 们 用 w( nn) 附近 的 一 阶 
Taylor 级 数 展开 来 捞 近 名 (wt{n +1)), Ep 
bwin + 1)) ~ Ew n)) +g (nAwin) 
上 式 对 较 小 的 nn 是 适用 的 。 在 这 个 近似 关系 代入 式 (3,13) 得 到 
Elwin + 1)) = Ew a)) -ng (nde(n) = Bwin) -nl gla) ||’ 
上 式 表 明 ， 对 正 的 学 习 率 参数 ? 代价 函数 每 次 选 代 都 是 下 降 的 。 但 这 里 提供 的 推导 旦 近似 
的 ， 只 有 当 学 习 率 足够 小 时 才 是 正确 的 。 
RIE PREIS WR SR CAR w 的 速度 是 很 慢 的 。 此 外 ， 学 习 率 参数 1 对 收 化 速度 有 重要 
影响 ， 
© 当 站 较 小 时 ， 算 法 的 用 时 响应 是 平缓 的 (overdamped) ， 由 于 win BUS W RES 
一 个 光滑 曲线 ， 如 图 3-2a 所 示 
© 当 ? 较 大 时 ， 算 法 的 瞬时 响应 是 剧烈 的 (underdamped) ， 由 于 wn) 的 轨迹 是 锯齿 ( 振 
WEA, WE 3-2b 所 示 。 
. 当 习 超过 了 某 一 临界 值 时 ， 算 法 是 不 稳定 的 ( 即 不 收 黎 的 )。 


Newton 方法 
Newton 方法 的 基本 思想 是 最 小 化 代价 函数 名 (ww) 在 当前 点 (nz) 周 围 的 二 次 近似 值 ; 最 小 


化 在 算法 的 每 次 迭代 中 都 要 进行 。 特 别 ， 利 用 代价 函数 在 点 w(n) 周 围 的 二 次 Taylor 级 数 展 
开 式 ， 我 们 得 到 


Aé(wln)) = (wn + 1)) - SOw(n)) =g (n)Aw(n) + Aw’ (n)H(n)Aw(n) 


{3.14} 
ALAR — AF, oC n FET ARE (WIE wOn Ab m x 1 RR. EE An) EE (Ww) TE 
w(n HY m 47 m 列 Hessian FER, S(w) A) Hessian 矩阵 定义 为 
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om) 





4.0 0.0 4.0 
wr (a) 


b} 


图 3-2 Rea FRET EU BSH AA ES SL : 
ajy=0.3 biyn=1.0 tn wl 和 ws BAM w RR 

















rE FE at E 
dw Ow,dw, wdw, 
FE FE ——— rfg 
H = V'@(w) = | ow9w aw; wd Wn (3.15) 
at FE Bi TE 
dw duy dw Iuh Ow. 


ww ai bbt.com TAAWAOAA 





ra 


SO 


AG. ID a BEAN Ot PAE (WKF w PLR 


叶 改 变量 ASC w ATI Rh. 


Hat Ae 


win + 1) = won) + Aw(n) = win)-H (n)gtn) 
这 里 H (n) EE w) AY Hessian 4E EAI, 


a(n) + HtnjAwin) - 6 


MAR Awl ma 的 方程 得 到 


Awin) =- H (ngin) 


PIF 


irae Se Oy ee, MCS. 14) Aw AA 3 y 


(3.16) 


— OK BL, Newton 方法 收 伍 得 很 快 ， 而 卫 不 会 出 现 最 速 下 降 法 有 时 会 出 现 的 锯齿 形 情 


W. 但 是 ， 应 用 Newton 方法 时 ，Hessian 矩阵 必须 对 每 个 n 部 是 正定 矩阵 中， 


不 过 ， 一 般 不 


能 保证 在 算法 的 每 次 达 代 中 H(n) 都 是 正定 第 阵 。 假 如 Hessian 矩阵 H(n) PIER, Bir 


Newton AERA WE (Powell, 


Gauss-Newton 方法 


Gauss-Newton A TEA AA Fixe — PR RR, ERR AIR ERE A, 令 


化 eit w 的 依赖 性 : 


e (i,W) = 


1987: Bertsekas, 


1995a). 


iw) = 4 Deli) 
KERRAT 1/2 是 为 了 商 化 以 下 的 分 析 ， 此 会 式 中 的 所 有 的 误 善 项 都 是 以 权 值 向 量 w 为 基 
础 计算 得 来 的 ， 这 里 w ERA lagian HERR KHARE. 

误差 依 号 ef 已 是 可 调 权 值 问 量 w 的 图 数 。 给 定 操作 点 wn)}， 我 们 通过 以 下 方式 来 线性 


eci) + [22] 
用 矩阵 记号 可 写成 等 价 的 形式 


win} 


(w-— wln), i = 1,2. n 


e'(n,w) = e(n) + J(n)(w- wln)) 


其 中 eln) ERAN At 


Jin) = 


eln) = 
Jin} e(n) BJ nx m Jacobi Æ: 

















| et2), etn) 
aefl) dell) Pell) 
diw dw, SETIM 
de(2) del) Je(2) 
d W Iu, aw, 
defn) deln) deln) 
dy dd ww» Jap se pees 


Jacobi 724 J(n) E mx n PREM Vel nr) 的 转 置 ， 这 里 


Ve( n) = 
BUST aXe la) Bt win + DENAK 


[Ve(1),Ve(2),-- 


»Ve(n) | 


wn+l) = arg mind > (ein, w) || " 
A FAS (3. 19 AGTH e(n, w) RY Euclid 范 数 的 平方 ， 我 们 得 到 
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(3.17) 


(3.58) 


(3,19) 


(3.20) 


(3.21) 


FEE to 87 


E = ť m mm _— ae Ca 





i leinw) |? -5 | eta) Il? +e (n(n) Cw - win)) 


+ 5 (w -win On) ICn) Ow - wln)) 


因此 ， 将 以 上 表示 方式 对 wR RHR AS, REE 
J (njetn} + J in) w- win) = 0 
Mix TIEPE w, FEDR G. 2DE EGN: 
win t l) = wind) Ja S aein) (3.22) 
ERIA Gauss-Newton 方法 的 纯粹 形式 。 

AMR Newton 方法 必须 知道 代价 函数 理 ( A9 Hessian AFF, Gauss-Newton 方法 内 需要 己基 
误差 同 量 e(n) Jacobi HH, (HE, A TTE Gauss-Newton EETA, FMAM S mn) 
必须 是 非 奇 异 的 。 

关于 后 一 上 品 ， 我 们 认识 到 于 Cn)J( 双 总 是 非 负 定 的 。 六 了 保证 它 是 非 奇异 的 ，jacobi 4 
阵 Jn RSE n; 也 就 是 说 ， 式 (3.,20) 中 J(n}) 的 n 行 必须 是 线性 无 闫 的。 不过， 我 
们 并 不 能 保证 这 个 条 件 总 是 满足 。 为 了 防止 In) WRG, 通常 的 办 法 是 给 和 矩阵 (a) 
nn) 加 一 个 对 角 短 阵 红 。 参 数 8 是 .一 个 小 的 正常 数 ， 它 的 选择 必须 保证 

Vi(n)JCa) + SIRT n 部 是 正定 的 
AEX PERLE, Gauss 一 Newton 方法 以 下 面 微 小 修 下 形式 实现 ， 
wn +1) = wa) - (J (na) + OD (nen) (3.23) 
STATOR n ATA, MB ERR A. ERR oh (3.23) EBEK 
代价 函数 | 
Elw) = {| w- w(x) ||? 4 2 (3.24) 


A, AP wtn) 是 权 值 向 量 wt i) 的 当前 值 。 
现在 我 们 已 经 具备 了 解决 线性 自 近 应 滤波 胡 涉 及 的 特殊 问题 所 沸 的 最 优化 丁 具 。 


3.4 线性 最 小 二 乘 滤波 器 


同 标 题 暗示 的 一 样 ， 一 个 线性 最 小 二 乘 滤波 器 有 了 两 个 明显 的 特征 第 -， 在 它 构 造 周围 
的 神经 单元 是 线性 的 ， 如 图 3- 1b 的 模型 所 示 。 第 二 ， 用 来 设计 滤波 髓 的 代价 函数 如 (w) 是 误 
差 平 方 和 ， 如 式 (3.,17) 的 定 久 。 在 这 个 基础 卜 ， 利 内 式 (3.3) 和 (3.4)， REE eCn) 可 以 表 


地 如 下 ， 
e(n) = d(n) - [x(1),x(2), En ] win) = dín} - X(n) wn) (3.25) 


其 中 dln) n x1 的 期 望 响 应 向 量 : 
d(n) = [d(1),d(2),-,d(n)]? 
站 tn} 是 nx m WES 
X(n) = [x€n).x(2),-°,xCn)]? 
由 式 43.25) 对 wi n BR oe 348 Bl BR EB kE 
Ve(n) =- X'in) 
相应 地 ，e( n) BY Jacobi 矩阵 是 
Kna) =- Xin) (3.26) 
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=- 
一 了 一 rT a EE 


因为 误差 式 (3,1 中 对 权 值 辣 量 wln) 已 是 线性 的 ， 如 下 所 示 Gauss-Newton J7TETE— TRIER IG 
收 颌 。 将 式 (3.,25) 和 (3.26) 代 人 (3.22) 得 到 
wn + 1)= wn)+ (X"(n)X(n)) X (a) (dn) — X(n)wn)) 
= (X" (nj) X(n)) TX (nyd(n) | 
TAX (nX n) C X Cn BEERS Xí n) A 442# (Golub and Van Loan( 1996), JJaykin 
(1996)); Ep 


(3.27) 


X* (a) = (X'(n)XK(n)) IX (n) (3.28) 
Alike, Feq Oy EER 3 MABA BME. 
win+1) = X* (njd(x) (3,29) 


这 个 公式 表示 下 面 陈 述 的 一 个 简便 方式 :“ 权 值 向 量 w( n+ DORRE ETA on 的 一 
个 观察 区 加 上 的 线性 最 小 二 乘 问 题 .” 


Wiener 滤波 器 : 各 态 历经 环境 下 的 线性 最 小 二 乘 滤波 器 的 极限 形式 


一 个 有 趣 的 情形 是 ， 当 输入 向量 x(i) 和 期 望 响 应 dA SE STE (ergodic) FH 
境 。 我 们 可 以 用 长 期 样本 均值 或 时 间 鸥 值 来 代替 期 望 或 总 体 殉 值 (Gray and Davisson, 1986 ) - 
这 样 一 个 环境 可 以 部 分 用 以 下 一 阶 统计 量 来 描述 : 
© 输入 问 量 xí EJIE RE (correlation matrix); IRA R, 
© WAPE x( 让 和 期 望 啊 应 4{i) 之 间 的 互相 关 向 量 {eross-comelation vector); TOA rio 
ik BT at ot aE OT T : 
R, = Elx(i)x (i)| = lim 2 Sua o = lim ~X"(n)X(n) (3.30) 


neo fi n * 


ra = ElxCida(é)] = tim + Dx(i)a(i) = lim EX" (nan) (3.31) 
其 中 EE RAN STARS . FAME, FRA RHR (3.27) RE NT MRE. 
Ww, = limw( z + 1) = lim (X"(n)X(n)) X” (n)d(n) 
| (3.32) 
= lim X Cr) XC) lim nX (n)d(a) = R'r,, 
这 里 R 是 相关 和 矩阵 及 的 道 。 为 了 纪念 Norbert Wiener 对 这 个 问题 作出 的 贡献 ,， 权 值 向 量 w, 
称 为 线性 最 优 滤 恋 问题 的 Wiener 解 (Widrow and Stearns, 1985;Haykin, 1996 )。 因 此 ， 我 们 可 以 
作出 以 下 的 陈述 ， 
对 一 个 各 和 芒 历 经 过 程 ， 当 观察 样本 数 趋 于 无 穷 时 ， 线性 最 小 二 素 滤 滤器 渐进 趋 于 Wiener 
FE BE 
设计 Wiener E Mirm WE AI: 输入 向 量 x(n) 的 相关 矩阵 RA x(n) SH 
AHM dln) 的 互相 关 向 量 ru。 但是， 在 实际 遇 到 的 很 多 重要 情况 下 这 些 信 息 都 是 未 知 的 。 
EITE 以 利用 线性 日 适应 泪 泪 器 (linear adaptive Hien) 来 处 理 未 知 的 环境 ， 自 适应 在 这 里 的 音 
岂 古 滤波 六 能 够 调整 日 己 的 自由 参数 来 响应 环境 的 统计 变化 。 在 连续 基础 上 作 这 类 调整 的 一 
个 流行 的 算法 古 最 小 均 方 算 法 ， 它 是 与 Wiener 滤波 器 密切 相关 的 。 
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3.5 最 小 均 方 算法 
最 小 均 方 (least mean square, LMS ) 算 法 建 并 的 基础 是 利用 代价 际 数 的 啼 时 值 ， 风 





E(w) = 5 eln) (3,33) 
这 里 eln) n HARMI RRE, Ee w AE m wik Seal 
EW oln) PR (3.34) 
WETE ae) REA IAF, LMS 算法 运行 在 一 个 线性 神经 元 ， 可 以 把 误差 信和 号 表 东 为 
eln) = din) 一 x (nw n) (3,35) 
因此 Feta) = TOM) 
FE Cw) 
All Gwin) = ~ x(n)eln) 
把 后 者 作为 梯度 向 量 的 一 种 知 计 ， 可 以 记 
e(n) =—xln)eln) (3.36) 
最 后 ， 利 用 式 (3.36) 作 为 式 (3.12) 中 的 最 速 下 降 法 的 梯度 向 量 ， 可 以 写 出 LM 算法 公式 
Fin +l) = #On) + oxtnje(n) (3.37) 


RHE ye BSH, LMS AE p RAAB Wn) AR AE RE SS 
即 通 过 误差 信号 的 低频 分 量 ， 而 削弱 高 频 分 鞭 (Haykin,1996)。 过 滤 动 作 的 平均 时 间 常 数 与 学 
习 率 参数 1 成 反比 。 因 此 ， 给 1 赋 一 个 较 小 的 值 ， 自 适应 过 程 将 进展 缓慢。 由 此 更 多 的 过 去 
数据 被 LMS 算法 记忆 ， 导 致 一 个 更 精确 的 过 滤 过 程 。 换 句 话 说 ， 学 习 率 参数 y 的 倒数 是 LMS 
算法 记忆 的 一 种 度量 ， 

TESK(3.37) PSR Wn ACS w(w) 用 来 强调 这 样 一 个 种 实 ， 利用 最 速 下降 法 可 以 得 到 
一 个 权 值 器 量 而 LMS 算法 产生 该 权 值 向 量 的 -- 个 估计 值 。 所 以 ， 使 用 LMS 算法 时 我 们 牺牲 
挤 最 速 下 降 法 的 一 个 明显 特征 。 在 最 速 下 距 法 中 ， 对 一 个 给 定 的 YY 权 值 向 量 wfa) 在 权 值 空 
间 中 有 一 个 明确 定义 加 迹 。 对 比 之 下 ,在 IMS 算法 中 权 值 向 量 冶 (z3 则 跟踪 一 个 随机 的 轨 
OD. APIA CRA, LMS 算法 有 时 也 被 称 为 "随机 梯度 算法 ”"。 当 LMS 算法 的 迭代 次 数 赵 于 
无 限时 ,这 (nn) 在 Wiener 解 w, 周围 随机 移动 (布衣 运动 )。 重 要 的 事实 是 ， 不 像 最 速 下 降 法 ， 
LMS 算 靶 不 需要 知道 环境 的 统计 特性 。 

ER 3-1 中 小 结 LMS 算法 ， 它 清楚 表明 这 种 算法 的 简单 性 。 如 这 个 表 中 表明 的 ， 对 于 
算法 的 初始 化 ， 一 般 设 算法 中 的 权 值 癌 量 初始 值 设 为 零 。 


#3-1 LMS 算法 小 结 


训练 样本 ; ait A TAS In] St = xf a) 
期 望 啊 应 = dn) 

AAS ae M, n 

PiE.: WE Won} =0 

计算 : Areal, 23,7, 计算 


e niz dini- ẹnyin) 
intl = in) + piladeln) 
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LMS 算法 的 信号 流 图 表示 


结合 式 43.35) 和 (3.37)， 我 们 可 以 把 LMS 算法 中 的 权 值 向 量 演变 过 程 表 示 如 下 : 
Wea + 1)= Wn) + gx(n)_d(n) — X(N 
= LT yxln)x Cn}l in) + x(n} dln) 

法 ， 我 们 认识 虽 | 
Won) = 2 [Wen + 1); (3.39) 

这 里 :~ 是 单位 延 返 操作 符 ， 意味 着 
存储 ， 利 用 式 (3.38) 和 13.39)， 可 以 
用 图 3-3 描 绽 的 信号 流 图 表示 LMS 算 
法 : Mas iit an IMS 算法 是 随 
机 反锁 系统 的 一 个 实例 . 反馈 的 出 现 


(3.38) 





对 LMS F PE BAM ory Br Be 9 aq 
LMS 算法 的 收敛 考虑 l 
从 控制 论 我 们 知道 反馈 系统 的 稳 a 
定性 是 由 组 成 反馈 环 的 参数 决定 的 。 Hj 3_3 LMS 算 法 的 信 筷 流 图 表示 


从 图 3-3 看 而， 正 是 较 低 的 反馈 环 在 LMS BREADS PRAT EH. BSE, AW PAR 
的 量 ， 即 学 习 率 参数 y 和 输入 回 量 x(n)}， 决 定 这 个 反馈 环 的 传输 系数 。 因 此 我 们 推出 输入 
HE xtnn) 的 统计 特征 利 学 习 率 参数 的 取 值 影响 LMS 算法 的 收 敏 行为 ( 即 稳 定性 )。 用 不 同 的 
方法 使 用 这 个 观察 ， 可 以 陈述 对 于 提供 输入 向 量 x{n) 的 特定 环境 ， 我 们 必须 仔细 选择 学 习 


PBR ny 以便 使 LMS 算法 收敛。 
LMS A EKR PA a ED) ES, RRA 
ELWCn) | 一 w, “na œ 时 (3.40) 


这 里 w, 是 Wiener 解 。 不 过 ， 这 样 一 -个 收 全 准则 没有 多 少 实 用 价值 ， 因 为 一 系列 零 均值 而 其 
他 为 任意 的 随机 向 量 在 这 种 意义 下 是 收敛 的 。 

从 实际 情 狗 考虑 ， 真 让 的 收 伍 应 该 是 均 方 收 仇 ， 描 述 为 

E e(n) 一 常数 Manse 时 (3.41) 

但 是 ， 一 个 LMS 算法 的 均 方 收敛 的 详细 分 析 是 相当 复杂 的 。 为 了 使 这 个 分 析 在 数学 上 可 行 ， 

1. 顺序 的 输 和 人 向量 x(1)，x(2)，… 末 相 统计 独立 。 

2. EB n, 输入 向 量 x(n) 对 以 前 样本 的 期 望 响应 d(1), d(2), e, d(n—1) feet 
独立 的 。 

3. 在 第 n 步 ， 期 望 啊 应 din) 与 x(n) 有 关 ， 但 对 以 前 的 所 有 期 望 响应 统计 独立 。 

4. 输入 回 量 x(n) 和 期 望 响 局 dr) 抽取 和 白 Gauss 分 布 总 体 。 

在 此 基础 上 的 IMS 算法 统计 分 析 称 为 独立 理论 {independence theory) (Widrow et al. , 1976). 

通过 引信 独立 理论 原理 并 假设 学 习 率 参数 1 足够 小 ，Haykin(1996) 证 明 只 要 ;满足 条 件 
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2 ZS fo oF 


EE od << ———— i ees, es m —— SL ea ew — Č, ———— ie 


0< q< Z (3,42) 


LMS 2-9 7A es, eA, EIERE R GR AAA, 但 是 ， 仁 LMS 算法 的 典型 应 用 
中 ，%w 是 末 记 的。 为 了 克服 这 个 困难 ，R, 的 迹 {irace) 被 当 作 和 ,的 保守 估计 ， 在 这 种 情 沈 
下 ， 等 式 13.421 可 以 收 写 为 


Ocz TE (3.43) 
这 里 ol R, | RKF., REEL, TAERE THATA. AAEE 
RSAC S TR eA A, FRA a RE LMS BEY RS 
件 吉 下 ， 


0 x T] < TE Ge LEEA 2 : (3 44) 
Elec able A KJE A A 
RR FO] BAB ie EI, ARA LMS Se ABR TE ae, BR, a ae BE H 
SERN, (AR GEE A — ce AR 


LMS 算法 的 优点 和 局 限 


正如 表 3-1 算法 概述 中 说 明 的 那样 ，LMS 算法 重要 优点 就 是 简单 。 此 外 ，EMS 算法 是 模型 
独 并 的 ， 因 此 是 硼 裕 的 ， 这 意味 这 小 的 模型 不 确定 性 和 和 小 的 扰动 ( 即 小 的 能 量 扰 动 } 只 可 能 导致 
小 的 估计 误差 (误差 信号 )。 用 精确 的 数学 术语 ，LMS 算法 按照 五” 准则 (或 最 小 最 大 准则 ) 是 最 
优 的 (Hassibi et al. ,1993,1996)。 在 #" 意 义 下 的 最 优 性 基本 原理 要 对 付 最 坏 情况 : 

如 村 你 不 知道 你 面 对 的 是 什么 ， 计 划 最 坏 的 情况 并 优化 它 。 

长 期 以 来 LMS 算法 被 当 作 梯度 下 降 法 的 瞬时 逼近 : 但 是 ，LMS 的 H 最 优 人 性 为 这 个 广 证 
应 用 的 算法 提出 了 一 个 严格 的 基础 。 特 别 ， 它 解释 算法 在 往 定 和 不 稳定 环境 下 的 邻 人 满意 荆 
必 的 能 力 。 这 里 “不 稳定 "环境 是 指 统计 特性 随时 间 变 化 的 环境 。 在 这 样 一 个 环境 下 ， 最 优 的 
Wiener WREATH tL, LMS 得 法 规 站 有 了 一 个 附加 任务 一 一 跟踪 Wiener 滤波 器 参数 的 变化 。 

LMS 算 法 的 主要 局 限 性 是 收 合 速度 较 慢 ， 并 日 对 输入 特征 结构 的 变化 反应 较 灵 数 
(Haykin, 1996), LMS 算法 一 般 需 要 输 人 空间 维 数 十 倍 的 和 迭代 次 数 才能 达到 稳定 状态 。 当 输 
和 人 空间 维 数 示 融 时 缓慢 的 收 伍 速度 会 变 得 特别 严重 。 至 于 对 环境 条 件 的 变化 反应 很 灵敏 ， 
LMS 算法 对 输入 回 量 x 的 相关 和 定 阵 也 的 条 件数 或 特征 值 散布 的 变化 反应 特别 灵敏 。 懈 的 条 
IFRC Y(R); EX4 F: 


Y(R?) = (3.45) 


这 里 和 Nw 和 %; 分 别 是 第 阵 RR 的 最 大 和 最 小 特征 值 。 当 输入 向 量 x(n} 所 属 的 训练 样本 是 病态 
情况 时 ， 也 就 是 当 条 件数 y ORL) RE, LMS 算法 对 条 件数 y ROSHER ARE BSE 
E, EE LMS 算法 的 Hessian HE MAR MRE wet wh SR, CS FREE 
R: 请 部 习题 3.8。 因 此 ,在 这 里 的 讨论 中 ， 我 们 用 Hessian ERRER RR 所 有 讨论 
仍然 成 立 。 
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3.6 525) nee 

一 个 检验 LMS BEER — PB Ae Ra PT A AE E CA KS TR RE 
TP ESR EPA A, PUMA ATRIA RS, (nD XFIERKHK n H 
ER 

RE- --P ale ka, RIN EER BA Patr., RR RIE A 
T, EEEE, Swear 
ARS x(n) AMERA din ARRIA AAR. i AER Rm HR 
PAA kE a OE) APPA AA TIERRA, Atek y eR h R 
PFRN. BRR AMREOLYE. A TE Be Bye Sy h BE, (ne SEF 
n 的 图 像 )， 我 们 利用 试验 中 滤波 器 总 体 的 样本 学习 曲线 的 平均 ， 从 而 平滑 噪声 的 影响 。 

fig iG RISER ERY, R 
们 发 现 总 平均 学 习 曲 线 是 从 出 初始 条 
件 决定 的 一 个 很 大 的 值 名 (0) 开始 ， 然 CaCO) 
后 以 某 种 速率 下 降 ， 此 速率 由 滤波 器 | 
的 使 用 种 类 决定 。 最 后 收 第 到 一 个 稳 | 
IAS, (%), WE 3-4 所 示 。 在 学 习 
曲线 的 基础 上 我 们 能 够 定义 自 适 应 滤 
Wea BY US SN HE RAS) ZL BE E 
— “7 36 SE {A BH) a RS, (0) 的 
lo ) 所 需 的 选 代 次 数 no 

本 个 由 学 习 上 曲线 推 出 的 有 用 的 0.18.0) 
A TEM RS ae TEER H T (misadjust- NLS 


Ea (7) 


DERF RE 


ment), UAM, 令 四 ,表示 Wiener ÑE É 一 一 -一 -一 -一 一 一 ~-~ 全 一 一 一 “全 一 = = 
Marr EREDAID RA, EEE H 

Hir aay a Ba ERK 
HAERE 也 和 互相 关 问 量 ny 值 的 基础 
上 设计 。 我 们 可 以 定义 自 适应 滤波 器 图 3-4 LMS 算法 的 理想 学 习 曲 线 


的 误 调 节 如 下 {Widrow and Steams, 1985; Haykin, 1996) ; 
AM 一 E(w) 一 É rin _ E(w) 


É min min 


inal PAGE —-PTABAN SE, CARE AEEA EA RAEN PARA SIL. 4 
对 单位 1 ii), FEA Gee TT A BOA. IRA MRR HOLE 
式 。 所 以 ， 例 如 一 个 10% 的 误 调 他 意味 着 白 适 应 滤波 器 (在 适 庶 完成 后 ) 产 生 一 个 比 相应 的 
Wiener WEE ds E 的 最 小 均 方 误差 各 大 10 侍 的 均 方 吝 盖 。 这 种 情况 在 实际 中 通常 被 认为 是 
邻 人 满意 的 。 

号 一 个 LMS 算法 的 重要 特性 是 稳定 时 间 (setting time)。 但 是 ， 对 稳定 时 间 并 没有 惟一 的 
定义 。 例 站 ,我们 可 以 用 具有 给 定 平均 时 间 常 数 r, 的 单 指数 函数 曲线 来 逼近 学 习 曲 线 ， 然 
后 利用 所 得 的 z 当 作 稳 定时 但 的 粗略 度量 。r, 值 越 小 ， 稳 定时 间 就 越 快 ( 即 LMS 算法 越 快 收 


=| (3.46) 
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找到 “稳定 TAS}. 

对 于 一 个 较 好 程度 的 副 近来 说 ，LMS 算法 的 误 调节 . 术 是 与 学 当 窑 参数 成 十 比 的 ， 而 平 
均 时 间 常 数 r 是 与 学 习 率 参数 7 成 反比 的 CWidrow and Stearns, 1985; Haykin, 1996). Fe{ TA UE 
有 这 样 一 个 着 盾 的 结果 : GSE BSR ike OP RE, ABA LMS 算法 的 稳定 时 间 
将 增加 。 上 反 过 来 如果 增加 学 习 率 参数 加 速 学 习 过 程 ， 那么 误 调 节 也 增加 。 因 此 在 设计 LMS 
算法 时 对 学 习 参 数 ny 的 选择 必须 特别 注 疙 ， 这 样 才能 得 到 一 个 满意 的 整体 性 能 。 

3.7 FJERNE 
LMS 算法 进 到 的 困难 可 山 因 于 学 习 率 参数 在 计算 过 程 中 保持 不 变 ， 表 示 为 
nln) = o ATTA n (3.47) 
这 只 是 学 习 萤 参数 假说 最 简单 的 可 能 形式 。 相 反 ， 在 Robbins 和 Monro B APE ALE iT AI a 
论文 中 (1951 ， 学 习 率 参数 是 随时 间 改 变 的 。 在 随机 前 近 文 献 中 最 常用 到 的 学 习 率 参数 随时 
可 变化 的 形式 是 
n(n) = = (3.48) 


这 里 c EM SL ROE Pa aS He a PR FP a te ( Ljung, 1977; Kushner and 
Clark, 1978 )。 但 是 ， 当 常数 c 较 大 时 ， 对 于 较 小 的 n 参数 有 可 能 出 现 参数 放大 的 危险 。 

作为 等 式 (3.47) 和 (3.48) 的 兰 代 物 ， 我 们 可 以 使 用 Darken and Moody(1992) 定 义 的 搜寻 后 
Ne ok iF AF ( search-then-converge schedule) 


这 里 加 和 t+ 是 用 户 选 择 的 常数 。 

在 自 适应 的 早期 阶段 ， 即 选 代 次 

数 n 相对 搜寻 时 间 常 数 r 较 小 时 ， 加 ， 标准 1.MS 算 法 
学 习 率 参数 nn) 近似 等 于 n。， 算 

法 运行 实际 上 也 是 与 “标准 ”LMS , 
算法 一 样 的 ， 如 图 3-5 Bra. A F a 
此 ， 通 过 在 允许 范围 内 选择 一 个 

较 大 wm。， 我 们 希望 对 滤波 器 的 名 : 

调 权 值 能 找到 在 一 组 较 好 的 值 并 

eH LE RH. RIG, SER 
次 数 = 比 搜寻 时 间 常 数 r 大 时 ， 
学 习 率 参数 近似 为 cjn， 这 里 c= 
Thos WWE 3-5 所 未。 算法 现在 以 
一 个 传统 的 随机 逼近 算法 运行 ， Hi 

RAA UKAA ERRA. X 

ER SG AAAI oom 

LMS 算法 的 期 望 特征 和 传统 随机 

逼近 理论 结合 起 来 的 潜力 。 BSS USB AGE 


U. 190 
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3.8 感知 器 


我 们 现在 进入 本 章 的 第 二 部 分 ， 处 理 Rosenblat 的 感知 器 ， 以 后 玫 简 称 为 感知 器 {perceptron) > 
前 面 几 节 描 述 的 IMS 筑 法 建立 在 一 个 线性 神经 元 上 ， 而 感知 器 建立 在 一 个 非 线 性 神经 元 上 ， 
即 神经 元 的 MeCulloch-Pits 模型 。 我 人 回忆 第 ] 
章 里 讲 的 这 种 神经 元 模型 由 一 个 线性 组 合身 利 随 
Ja BB dg BC PAS Ra, a 
3-6 所 示 。 神 经 元 模型 的 求 和 节点 计算 应 用 于 帘 
触 上 的 输入 的 一 个 线性 组 人 台 ， 同 时 也 合并 一 个 外 
部 的 应 用 仿冒 .这 个 计算 得 出 的 和 ， 也 就 是 诱导 
局 部 域 ， 被 用 到 一 个 硬 限 幅 峰 。 于 是 当 硬 限 帼 闪 
输入 为 正 时 ， 神 经 元 输出 +]， 反 之 则 输出 ~ 1. 图 3-6 感知 器 的 符号 流 图 

在 图 3-6 的 符号 流 图 模型 中 ， 感 知 器 的 突 触 权 值 记 为 w, w, t’ Wao 相应 地 ， 用 于 
感知 器 的 输入 量 记 为 x ，x;，…，x。。 外 部 应 用 偏 置 记 为 8。 从 这 个 模型 我 们 发 现 硬 限 幅 


器 输 人 或 神经 元 的 诱导 局 部 域 是 


输入 





p= È wit +b (3,50) 


eR SS AY AS Sh x, oe, 正确 分 为 名 ME, 两 类 。 分 类 规则 是 ， 如 
果 感 知 器 输出 y 是 + 1 就 将 xy, 22, o En RDM ATARS, , 如 果 感 知 器 输出 y 是 -1 
TM 4p A%, o 

为 了 进一步 观察 模式 分 类 器 的 行为 ， 一 般 要 在 m 维 信号 空间 中 国 出 决策 区 焉 图 ， 这 个 
空间 是 由 m 个 输入 变量 * ，x;，…，x。 张 成 的 。 在 最 简单 的 感知 器 中 有 被 一 个 超 平 面 分 开 
的 两 个 次 策 区 域 ， 此 超 平 面 定 区 为 


S| wx, +6 =0 (3.51) 


对 两 个 输入 变量 x, Axe, 的 情况 已 在 图 3-7 中 举例 说 
明 ， 图 中 的 决策 边界 是 直线 。 位 于 边界 线 上 方 的 点 
Cx, n GAG, 类 ， 位 于 边界 线 下 方 的 点 (x ,xz2) 分 
A, 类 。 注 意 这 里 偏 置 b 作用 仪 仪 把 决策 边界 从 原 
ABH. 
感知 器 的 罕 触 权 值 wis wo, co, Wa 可 以 过 过 
多 次 近代 达到 话 应 。 对 于 自 适 应 性 我 们 可 以 使 用 通 
称 为 感知 器 收 襄 算法 的 误差 收 正 规则 。 
决策 边界 


3.9 感知 器 收敛 定理 | 
为 了 导出 感知 器 误差 收 正 学 习 算 法 ,我们 发 现 图 3.7 作为 一 个 两 维 两 类 模式 分 类 


= | 





处 理 图 3-8 中 的 修改 的 信号 流 图 更 方便 。 在 这 个 与 
图 3-6 PHS BO PR, HR bn) RS 
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fa) A De I FPA — PP eS A 
{在 这 个 例子 中 起 平面 是 -~ 条 直线 ) 
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我 们 因此 定义 {m + tx1 输 入 向 量 

x(n) 二 二 
RH n ERRERA RM NKR ER. 由 应 地 我 给 入 
们 和 定义 (m+ 1}x1 术 值 向 时 

wn) = [b(n), wln), min), s wa Cn)]’ 

因此 ， 比 性 组 合 冀 的 输出 可 以 写成 暴 凑 有 形式 
Cn) = Dy io 人) ~windx(n} (3.52) 
这 里 ulm Rae b(n). WEEP n， 等 式 
w xer, m, t, sa Bm 维 空间 中 (对 基 些 规定 篇 置 ) 定 多 了 一 个 超 平面 ， 它 就 是 
两 个 不 问 输入 类 之 间 的 决策 平面 。 

TRARAL, 6, AG, 两 个 类 必须 是 线性 可 分 的 。 这 意味 着 竺 分 类 模式 必须 分 
离 得 足够 开 以 保证 决策 平面 是 超 平面 . 这 个 要 求 对 两 维 感知 器 的 情形 如 图 3-9 Bos. TE 
3-9a 中 两 个 类 8， 和, THB EBT. SSRN TEF BCBS EAB PRA 
RRA. ie, (ois, M6, 靠 得 太 近 ， 如 图 3-9b 所 未， 它们 就 变 成 非 线 性 可 
Se, BOPP TR SLABIG T RARE IT EAE = 


i 
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图 3-8 SSP Re aa SUP: 为 
YE A FORT BK RRE 





图 3-9 
a) 一 对 线性 分 高 模式 bb) RES Re 


假设 感知 器 的 输入 变量 来 源 于 两 个 线性 可 分 类 。 设 时 HUM x, 1), x (2), eP 
ATE, 的 向 量 组 成 的 子 集 ，8, 表示 训练 向 量 %(1)，%(2)，… 属 于 类 %, 的 向 重组 成 的 子 
HY AL, 的 并 集 是 整个 训练 集 % 。 给 定向 量 集 %%， 和 &, 来 训练 分 类 器 ， 训 练 过 程 涉及 对 权 
值 向 量 w 的 调整 使 得 两 个 类 Me 线性 可 分 。 也 就 是 ， 存 在 一 个 权 和 值 向 量 w RAUTEE 
wx>0 MMF, 的 每 个 输入 向 量 
wx<0 XR), 的 每 个 输入 向 量 x 
在 式 (3.53) 的 第 二 行 中 当 wrx =0 时 我 们 随意 地 选择 输入 向 量 x 属于 类 %, 。 给 定 训练 向 量子 集 
多 ， 入 , ， 简 单 感知 器 的 训练 问题 就 是 找到 一 个 权 值 向 量 w 满 足 式 (3.53) 中 的 两 个 不 等 式 。 
使 基本 感知 器 的 权 值 向 量 自 适应 的 算法 现在 可 以 用 以 下 公式 表述 : 


(3.53) 
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1. 很 如 训练 集合 的 第 n TRR x(n ARIE PY A n 次 迁 代 的 权 值 问 量 wl EA 
类 ， 那么 感知 是 的 权 但 问 量 按 下 述 规 则 不 会 修改 ， 
win+1) = wn) RU wix(n) > OH x(n) FASS, 
Win+ 1) = win) HU w xin) < OF x(n) BAS, 
2. AU, RASPY ARB el RHEL A) Re 
win +1} = win) - Mn)x(tn) 假如 m (axian) > OH x(n) MPFR, 3.55) 
win +1) = win) + nin}x(n) 假如 w (nj)x(n) < OA x(n) BFR, | 

Te Bel RR Cn RES n CRRA i a Tn 

假如 n=O, RE EHER n 无 关 的 常数 ， 我 们 有 一 个 感知 器 的 夯 定 增 量 
自 和 所 应 规则 。 

HARMA y= 1 时间 定 增 量 自 适 应 规则 的 收 合 性。 很 明显 | 的 具体 值 是 不 重 
BA, WEEE. y1 时 的 值 不 影响 模式 可 分 性 而 仅仅 改变 模式 向 量 。 对 于 n(n EL 
Aa Outi as E.o 

给 出 的 证 明 针 对 初始 条 件 w(0) = 0. IR win) x(n) <0%M n=l, 2, °°, ARAM 
xz 属于 子 集 区 | 。 这 样 ， 既 然 式 (3.$3) 的 第 二 个 的 条 件 不 满足 ， 那 么 感知 器 不 能 正确 地 对 
问 量 忆 1，xX(2)，… 进 行 分 类 。 在 常量 ?na)=1 的 情况 下 ， 我 们 可 以 利用 式 (3.55) 的 第 二 行 


(3.54) 


写 必 
won +1) = won) + x(n) 对 x(n) TAS, (356) 
MEMBE wO = 0, FTA RAIA PAF wia +1) 方程 得 到 结果 
won +1) = x(1) 4 x2) + 4 xfn) (3.57) 


因为 假设 类 有 AIG, 为 线 牲 可 分 的 ， 对 属于 子 集 多 | 的 向 量 x(1)，x(2),，…，x(n) 的 不 等 式 
方程 w xn)>0 存 在 一 个 和 解 Ww。 对 固定 解 w， 我 们 可 以 定义 一 个 正 数 o, 


& = min w, x(n) (3.58) 
nin E 


i, FAG. SAMRAT w, A 
WwW) Wn +1) = w, x(1) + w, x(2)} es ies oy w, x( 7) 
ATLA, RHR STE 3.58) PAE, RIJA 
wow(n +1) = na (3.59) 

FH) FAT AAD Cauchy-Schwarz 不 等 式 。 给 定 两 个 向 量 wm 和 wn +1), Cauchy-Schwarz 
人 不等式 表述 为 

lwo ll? wn +) I? [ww DF (3.60) 
这 里 + | ANPP SA Ec AL, AR ww n+ i) dete, Wah (3.59) 78 
到 [wo wint DI 大 于 或 等 于 nr:e。 从 式 (3.60) 我 们 注意 到 | w ll? ll won 41) :大于 或 等 
于 [wo w( n+ 1) 了。 这 样 得 到 


| wo lh? | be no 
成 等 价 地 有 | wi fit 十 | ) l7 =Te a 7 (3.61) 
hHRRNBRA-AARBA. pli, AER. 50A A 
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wik +1) = wlk) + x(k) Wk = lien Bh x(k) € &, (3.62) 
ints (3.62) RI RLS eae, iJa 
wk 41) (|? = | wOk) | + | Ck) IP + 2w (xf k) (3.63) 


(Ali, FERRARI THe, 中 的 向 量 x( 让 ) 不 能 进行 正确 分 类 的 假设 下 ， 我 们 有 Ww A) x(k) < 
0。 因 此 从 等 式 t3.63) 中 得 到 
wk + BD g [wo ll? + xik)? 


REMEE bwD- wis wae) bel, yn (3.64) 
Eksi, +, n 情况 下 的 这 些 不 等 式 和 假设 初始 条 件 wt0) = 0 结合 起 米 ， 得 到 不 等 式 
te Sd (3.65) 


这 里 有 是 一 个 正 数 ， 征 多 为 
B= may i x(k) ||? (3.66) 
式 43.65) ZeHA ETF] gt win + 1) PYLE! Re BOF EKES AB AGE (CR n 形成 线 
F n 有 足够 大 的 值 时 ， 式 143.65) 的 第 二 个 结果 显然 是 与 式 (3.61) 的 结果 相 了 矛盾 。 实 际 
上 ， 我 们 可 以 说 n 不 能 大 于 某 个 值 an 。， 值 n 使 得 式 (3.61) 和 (3.65) 等 号 都 成 立 。 这 里 ， 
nn 是 下 面 方程 的 解 ， 


Fl un & 


Tw |? = "= 


给 定 解 向 量 wo, EH nmo VKH 
BN wl (3.67) 


cf 


mAT 


XERE SATA n, and =1, E w(0) =8， 如 果 解 向 量 w FE., 那么 感知 器 权 值 
的 适应 过 程 最 多 在 ne EREZIE. MoR(3.58), (3.66) F(3.67 FERS w, 或 n,, 的 解 并 
不 惟一 。 

He EAE AY A BARS A at AY) ed ETA et oe SE BB ( Rosenblatt , 1962) : 

RU Ae ENT RE, He, 是 线性 可 分 的 ， 感 知 器 的 输入 来 自 这 两 个 子 集 。 感 知 器 在 某 
个 mm KEREKE, Kae et toe FELT: 
wing) = Wingo l) = won, +2) = 


是 对 ny So Roy AEE., 


下 面 考 虚 当 nn SECA, HERRAR Bid AR IE RPA, i 外 m) 是 满 
足下 式 的 最 小 的 整数 : 
ninja Cn)x(n) >| Ww (n)xtn) | 
利用 这 个 过 程 我 们 受 现 如 条 第 次 达 代 时 的 内 积 Ww Cn x(n AER Siete, 那么 第 n+1 次 
ARP 《+1ix(n) 符 号 台 会 是 正确 的 。 这 说 明 如 果 w (nx AA SBR, 我 们 可 以 通 
We x(n +1) = x(n SRE n+ 次 选 代 时 的 训练 次 序 。 换 名 话说 ， 每 个 模式 重复 呈现 给 
BAA Es Bl SA TE HTK 
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注意 当 w(0) 的 初始 值 不 为 零 时 ， 仅 仅 是 导致 收 合 需要 的 迷 代 次 数 或 增加 或 减少 ， 这 人 以 
MF w(0) 与 解 wo 的 相关 程度 无论 wO HEET, RAISSARA LAR HE UY o 

ER 3-2 中 我 们 对 感知 厂 收 敛 算法 做 出 概述 (Lippmann,1987)。 在 此 表 第 三 步 计算 感知 史 
的 实际 响应 中 使 用 的 记号 sen€ +), aI E AR signum function): 


+1 @v>O 
sgn = 1 | #ye0 (3.68) 
OE FRAT FT LAT ee I BY y(n FRA PAS 
y(n) = sgn€w'(n)x(x)) (3.69) 


表 3-2 BAR ML 


AY BRR 
xtnjoom+ l SEAT 
= [+ l xin) akn}, + an (i)? 
win} = m + l SER) i 
= [bin] wy n}, w n), a wy fa)? 
bin)= WE 
yin)= 实际 响应 {量化 的 } 
dtn) = HERK 
n= 学 习 率 参数 ,一 个 比 1 小 的 正常 数 
1. Hmi. Ww(0)=0, WAR) n= 1，2，… 执 行 下 列 计算 。 
2. 激活 。 存 时 间 步 *， 通 过 提供 连续 值 输入 向 是 xtn) 和 期 望 响应 don) RR. 
3. 计算 实际 了 应 。 计 算 感 若 器 的 实际 响应 ;: 
yin) = senlw' (tn)xtn) | 
ik smi LATS AM. 
4. MRNA, BeBe: 
win + l) = win) +y din) - y(n} xtn) 
这 里 
l 1 若 x(n) AFTAG, 
mS] Eaa) MERE, 
5. Wk. MHE n 增加 1， 返回 第 > 步 - 


TEMANE x(5) 是 (m+1) x1 问 量 ， 它 的 第 一 个 元 素 在 整个 计算 中 国定 为 + 1。 相 应 
地 ， 权 值 由 量 win) 是 (m+ 1) x 1 向量， 它 的 第 一 个 元 素 等 于 偏 置 5(n)。 表 3-2 中 的 另 一 个 
要 点 是 : RNAP RMI a(n), ELH 
dín) : i 4 x(n) FAS, (3 70) 
-1 T x(n) ATRE, 
Hie, AEE w(n) 的 自 适 应 是 以 误差 修正 学 习 规 则 (error-correction leaming mle) 形 式 下 的 累 
Dil: 
win<+1) = win) + nl din) — y(n) [x(n) (3.71) 
这 里 ?是 学 习 率 参数 ， 差 d(n)- y(n) 扮 演 一 个 误差 信号 的 角色 。 学 习 率 参数 是 正常 数 ， 目 
Ocel, SER TEAMS y AP, 我 们 必须 记 住 两 个 互相 冲突 的 需求 {Lippmann， 
1987 ): 
© 过 去 输入 的 平均 值 提供 一 个 稳定 的 权 值 佑 计 ， 这 需要 一 个 较 小 的 了 
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* A Pree A fl St x 的 过 程 的 癌 有 分 布 的 实时 变化 ， 快 速 目 适应 需要 较 大 的 he 
3.10 Gauss Mi TENS Bayes 分 类 跨 的 关系 


感知 艇 与 一 类 通称 Bayes 分 类 楷 的 经 典 模 式 分 类 器 具有 一 定 联系 。 在 Gauss 环境 下 ， 
Bayes 分 类 紫 退 化 为 一 个 线性 分 类 髓 。 这 与 感知 髓 采用 的 形式 是 一 样 的 。 但 是 ,感知 器 的 线 
性 特性 并 不 是 由 于 Gauss 假设 而 共有 的 。 这 一 节 我 们 研究 这 种 联系 ， 并 措 此 深入 研究 感知 器 
的 运行 。 我 们 首先 对 Baves 分 类 器 作 一 个 简单 的 复习 。 


Bayes 分 类 器 


{E Bayes 分 类 器 和 Bayes 假设 检验 过 程 中 、 我 们 最 小 化 平均 风险 { 记 为 灸 )。 对 两 类 问题 
CID AZ, AT), Van Trees(1968) 定 义 的 平均 风险 为 ; 
= cu Pil, /s(x | € Jdx + capl Sx (X | €, }dx 


(3.72) 
+ capr|, /x(x 6, Jdx + capl, falx | €, dx 
1% AB Ae MTF: 
p: = WAHE 区 表示 随机 回 量 系 的 实现 值 ) 取 自 子 空间 多 .的 先 验 概 率 ， 这 里 ;=1，2 且 
Py +p, Flis 
cy = SRE, 是 真实 的 类 (部 观察 向 量 x BR AFSL ) 时 决定 支持 由 子 空间 多 代表 的 
KE 的 代价 ，(i,j )=1，2。 
AI = 随机 回 量 天 的 条 件 概 率 密度 师 数 ， 假 设 观察 向 量 x 取 自 子 空间 终 id, 2 
式 43.72) 右 边 的 闲 丙 项 表示 正确 次 策 ( 即 正确 分 类 )， 从 而 最 后 两 部 分 代表 不 正确 决策 ( 即 错 
误 分 类 )。 每 个 决策 通过 两 个 因子 科 积 加 权 : 作出 决策 的 代价 和 发 生 的 相对 频率 ( 即 先 验 概 
Fee) 
Bayt: THe Pe MEER RUBE, CATR EHR, TES PR 
23 ale PREPS el ee x 必须 被 设 定 或 者 属于 多 | 或 者 属于 只 , 。 因 此 
2 == £, +a, (3.73) 
FAD, FRAT AT FER (3.72 SASH eR 


A = onpil, fx (x | 1 )dX + Cy Do wg [xh | 6, ) dx 


(3.74) 
+ €3) Pi yg [AX | 6, )dx 十 onp, fel | 6, )dx 
这 里 Cy S Cay H Cn * 10 PATE PATE SS PHP, 
| fel | ‘@,}dx = | fax | 6, dx = 1 (3.75) 


因此 ， 式 (3.74) 变 为 
Rh = Capi + Cn Ps + le [Pl ce = Cn )fx\ X | G) = py ea = cu fy (x | €,) Jdx (3.76) 
AG. 76) AWWA THER. AABERMEE ER RBR, RIAEG.708 
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到 以 下 最 优 分 类 的 策略 : 

1. 所 有 使 被 积 隔 数 ( 即 方 插 导 时 的 表达 式 ) 为 负 的 观察 问 量 x 的 值 如 由 于 子 空间 吴 ,( 即 类 

[144] 轧 )， 因 为 此 时 积分 对 风险 久 有 一 个 贷 的 页 献 。 
2. 所 有 使 被 积 函数 为 正 的 观察 向 量 x 的 值 都 必须 从 子 空间 %, 中 排除 ( 即 分 配给 类 %,)， 
因为 此 时 积分 对 风险 及 有 一 个 正 的 贡献 。 

3. PRE RASH x 的 值 对 平均 风险 灸 没有 影响 ， 因 此 可 以 任意 分 配 。 我 们 假设 这 些 
点 分 配给 子 空间 奖 ,( 即 类 @, ) 。 

企 这 个 基础 上 ， 我 们 与 出 Bayes 分 类 器 公式 如 于 : 
假如 条 件 
py Cex, 一 en) fy (x |€) > plen - Cn ) fx x | É) 
满足 ， 把 观察 向 量 X 分 配给 予 空间 8 (PRE) FUE x PRAY, RE) 


为 了 简化 起 见 ， 定 闵 





x(x | É, 
A(x) = ire | ve (3.77) 
和 = (3.78) 


量 AC x) SEPT ARTE Eo NL. WERA E rb (likelihood ratio),  & KAR RAY 
Hii. EE AM EMEREK. 根据 这 两 个 量 ， 我 们 可 以 把 Bayes 分 类 重新 表述 为 . 


假如 对 一 个 观察 向 量 X， 似 然 比 Aa EREHE E 大， 就 把 X 分 配给 类 晶 | ， 反 之 ， 分 配给 类 唱 ，、 


图 3- 10a 是 一 个 描绘 Bayes 分 类 器 的 模块 图 。 此 模块 图 的 要 点 是 两 方面 的 ， 
A(x) > & Bx He €, 


Rt, 分 本 不 给 E. 


F iogA(x) > lope, Beane, 





反之 ， 分 配 x A €,. 


图 3-10 Bayes 分 类 器 的 两 个 等 泊 模 型 
a HIER HAH) AT RADU HL 
1. 进行 Bayes 分 类 器 估计 的 数据 处 理 被 完全 限制 在 似 然 比 A(x) 的 计算 中 。 
2. 此 计算 与 分 配给 先 验 概率 的 值 和 决策 过 程 中 的 代价 是 完全 无 闫 的。 这 两 个 量 仅 仅 影 
Wey REE £ 


i45 
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从 计算 的 观点， 我 们 发 ge PERT RR EE AE A ASS. BRA AT 


SHR. TA, STS pee. , (ISAT ACx) AMRA E ABA IE AY. AE, Bayes 4728 ir 
可 以 以 如 图 3-10b seasan 由 于 明显 的 原因 ， 第 二 个 贸 中 其 人 的 检验 被 称 为 对 
RAUL PR HLS SE o 


Gauss 分 布下 的 Bayes 分 类 器 


HITE IS — TATE Gauss 分 布下 岗 类 问题 的 特殊 情形 。 随 机 向 量 四 的 均值 依 颊 于 外 是 属于 
类 | EEG, E 茧 的 协 方 差 阵 对 两 类 都 是 一 样 的 。 也 就 是 说 ， 
WE: E|Xj= H 
E| (X- os py J=c 
X6: E[X]= 
Staaten =C 
UP AER C EIR AI, RAR ARS, M286, 的 样本 是 相关 的 。 假 设 C 是 非 奇 
Fi, AREA RS C7 存在 。 
在 这 个 背景 下 我 们 可 以 把 处 的 条 件 概 率 密度 函数 表示 如 下 : 
fxtx | 6) = pr 全 5 (x = uO E(x 一 u,)} 21,2 (3,79) 
这 里 m 是 观察 向 量 x 的 维 数 。 
进一步 假设 
1, FASS, ANS, A AD : 
BP, = pi = + (3.80) 
2. 错误 分 类 造成 同样 的 代价 ， 正 确 分 类 的 代价 为 零 ， 
C = Cy 村 Cj, = ceo = 0 (3.81) 
我 们 现在 有 了 对 两 类 问题 设计 Bayes 分 类 器 的 信息 。 具 体 地 ， 将 式 (3.79) 代 入 {3.77) 并 
RANTS, 我们 得 到 (简化 后 ); 


log (x) = - 3x- m) OM x ~ py) + $C C(x ph) 


(3.82) 
= (m = m) Cx + OC -WTC p) 
把 式 (3.80) 和 式 (3.81) 代 入 式 (3.78) 并 取 自 然 对 数 ， 我们 得 到 
log = Ü (3.83) 
式 (3.82) 和 式 (3.83) 表 明 当 前 问题 的 Bayes 分 类 器 旦 线性 分 类 器 ， 如 关系 式 
y= wx é (3,84) 
FTR, RE 
y = logA(x) (3.85) 
w= CC (Hot) (3.86) 


o_o 
b = (mr Cp: -ph Cp) (3.87) 
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更 进一步 ， 分 当天 由 :个 权 值 向量 w Ald b 的 构成 的 线性 组 合 器 构成 ， 如 图 3-11 所 示 ， 
在 式 (3,84) 的 基础 上 上， 我 们 可 以 把 对 两 类 问题 的 
对 数位 然 比 检验 措 述 如 下 : 
假如 线性 组 合 回 (包括 偏 置 5) 的 输出 是 正 的 ， 把 
观 纶 向 量 x 分 配给 类 吧 T, EDERE. 


147 这 里 描述 的 Gauss 环境 下 的 Bayes 分 燃 嚣 的 运行 己 感 
知 器 是 类 似 的 ， TA AE AB RE PS RE ep 
(3.71)49(3.84), 但 是 ,在 它们 之 间 还 是 有 一 些 细微 说 3-11 Gauss 分 类 器 的 信号 流 图 
日 重要 的 不 同 ， 这 必须 被 仔细 检查 (Lippmann , 1987): 

© 感知 器 运行 的 前 提 居 竺 分 模式 足 线 性 可 分 的 。 导 出 Bayes PE PREP Gauss 分 布 

的 模 术 当然 是 互相 重 香 的， 因此 它们 不 是 可 分 的 。 重 到 的 程度 是 由 均值 辐 量 pp 和 和 

wb 以 及 协 方差 窍 阵 C 决定 的 ,重生 的 性 质 如 图 3-12 所 示 ， 这 是 对 一 个 随机 标量 的 

特殊 情况 { 即 维 数 m= 1)。 当 输入 如 图 所 示 是 不 可 分 昌 其 分 布 是 重症 的 时 候 ， 感 州 

髓 收 证 算法 出 现 一 个 问题 ， 因 为 两 类 间 的 决策 边界 可 能 会 持续 据 汤 。 

Bayes 分 类 最 小 化 分 类 误差 概率 。 这 个 最 小 化 是 与 Gass 分 布下 两 类 之 则 的 甘 敬 无 

XxX, fiw, ÆR 3-12 中 的 特例 中 ， Bayes 分 类 使 决定 边界 总 是 位 于 Gauss 分 布下 两 类 

E FIG, WAER AE. 

感知 器 收 合算 法 是 韭 参 数 的 ， 这 指 的 是 它 没有 关于 固有 分 布 形式 的 假设 。 它 的 运行 

是 集中 于 发 生 在 分 布 重 要 地 方 的 误 盖 。 当 输入 由 非 线性 物理 机 制 产 生 同 时 它们 的 分 

布 是 严重 偏离 而 旦 非 Gauss 分 布 的 时 懂 ， 算 法 将 工作 得 很 好 。 相 上 友 ，Bayes 分 类 器 是 

参数 化 的 ; 它 的 导出 是 建 pear 

Ay, aT FER A E RIE 

用 范围 。 fr ZEN | EN fylxl'€,) 

感知 器 收 敏 算法 是 上 自 适 应 wR i Ue t Y 

的 日 实现 简单 ; 它 的 存储 | 

walk (MER FRR A A fi 

B., A—FAH, Bayes 分 类 

器 设计 是 问 定 的 ; 可 以 使 

它 变 成 自 适应 的 ,但 代价 

Eb fits AE Beir 图 3-12 两 个 重 登 的 一 维 Gauss 分 布 

BARE. 

3.11 小 结 和 讨论 
感知 器 和 使 用 LMS 算 法 的 自 适 应 滤波 器 是 本 质 上 相关 的 ， 正 如 被 它们 的 权 值 更 新 所 表明 
的 那样 。 实 际 上 ， 它 们 代表 基于 误差 修正 学 习 的 单 层 感 业 器 的 不 同 实 现 。 术 语 - 单 层 "用 在 这 

里 是 为 了 表示 两 者 的 计算 层 都 是 由 单个 神经 元 组 成 的 一 一 因此 本 章 使 用 这 个 标题 。 但 是 ， 感 

HIREA LMS 算法 在 一 些 基本 方面 有 区 别 ; 
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« IMS RREH TREC, WRA WEIR MeCulloch-Pitts EARN. 
。 RARR AA WHET ARIES Hk. AE., 7E LMS 算法 中 发 和 上 持续 学 习 ， 这 
是 指 当 信号 处 理 丰 停止 时 学 习 就 术 停 止 。 

一 修 硬 限 幅 局 构成 McCulloch-Pitts 神经 元 的 非 线性 元 素 ， 很 容易 担 出 这 样 一 个 问题 ， 如 
乐 用 一 个 sigmoid WEA PERE SIRE, RAIS ARAM? AREAS RINE 
FA fi BIS AS a PR BBE A HS BE SRE, SR A eR ESE AR R 
(Shynk, 1990; Shynk and Bershad ,1991)。 因 此 我 们 可 以 正式 说 只 要 限制 为 由 线性 组 侣 器 和 随后 
一 个 非 线性 元 素 组 成 的 神经 元 入 型 ， 不 管 非 线性 使 用 什么 形式 ， 一 个 单 层 感知 器 都 只 能 在 线 
性 可 分 模式 上 进行 模式 分 类 ，, 

我 们 用 一 个 历史 注释 结束 单 层 感知 器 的 讨论 。 感 知 器 和 LMS 算法 大 约 在 20 tite 50 Ett 
HRR HS BL, LMS 算法 真正 经 受 住 了 时 间 的 考验 。 实 际 上 ， 它 把 和 白 己 作为 一 个 白 适 应 信号 
处 理 隐 主要 工具 (workhorse)， 因 为 它 实 现 起 来 较 简 便 ， WHR EWEA., Rosenblatt 的 感知 器 的 
重要 性 很 大 程度 是 在 历史 方面 。 

对 于 Rosenblatt 感知 器 的 第 一 个 真正 的 批评 是 由 Minsky and Selfridge{1961) 提 出 的 。Minsky 
All Selfridge 7814, Rosenblatt 定义 的 感知 器 不 管 是 用 那 种 形式 都 不 能 推广 到 二 进 制 数 的 奇偶 校 
验 对 的 情况 ， 更 不 用 说 完成 一 般 的 抽象 。Rosenblatt 感知 器 的 计算 局 限 后 来 又 在 Minsky 和 
Papert 的 名 涛 4 感知 器 # 中 得 到 了 严格 的 数学 证 明 (1969,1988)。 在 给 出 一 些 出 色 的 和 非常 详细 
XT BSA ae TS oP RG, Minsky 和 Papert 证 明 ， 建 立 在 局 部 学 习 例 子 基 础 上 的 Rosenblatt 
感知 圳 从 本 质 上 无 法 进行 全 局 的 泛 化 。 在 他 们 著作 的 最 后 一 章 ，Minaky 和 Papert 推测 他 们 发 
现 的 Rosenblatt 感 基 看 的 局 限 性 对 它 的 一 种 很 特殊 的 变形 一 一 多 层 神经 网 络 也 屋 对 的 ,下文 
摘录 于 他 们 著作 (1969}) 的 13.2 W: 

尽管 (甚至 由 于 1) 它 严重 的 局 限 ， 感 启 器 展示 了 自身 研究 价值 。 它 有 很 多 吸引 注意 的 优点 ， 它 的 线性 
性 , 它 迷 人 的 学 习 法 则 ， 它 清楚 的 作为 -- 类 并 行 计 算 范 倒 的 简单 性 ,没有 任何 理由 假定 这 些 优点 能 带 到 过 
层 感 知 器 中 。 我 们 直觉 判断 推广 到 多 屋 系 统 也 不 会 有 好 结果 ， 但 是 对 于 这 一 点 我 们 认为 证 有 明 { 或 否定 ) 它 是 
一 个 很 重要 的 需要 研究 的 问题 ， 

这 个 结论 在 很 大 程度 上 导致 了 一 个 一 直 持 续 到 20 世纪 80 年 代 中 期 的 对 不 仪 是 感知 器 而 只 是 
一 般 神经 网 络 计算 能 力 的 严重 怀疑 。 

但 历史 已 经 证 明 Minsky 和 Paper 作出 的 推测 似乎 是 不 太公 正 的 ， 因 为 我 们 现在 已 经 有 很 
多 神经 网 络 的 高 级 形式 ， 它 们 的 计算 能 力 比 Rosenblan 感知 器 蝇 得 多 。 例 如， 第 4 章 讨 论 的 
友 回 传 搬 算 法 训练 的 多 层 感 知 闫 ， 第 5 章 讨 论 的 径 向 基 函 数 了 网络， 第 6 章 讨 论 的 支持 向 量 
机 ， 都 以 它们 各 目的 方法 克服 了 单 层 感知 训 的 计算 局 限 性 。 


注释 和 参考 文献 


[1] Rosenblatt 预想 的 原始 感知 器 模型 的 网 络 组 织 (1962) 有 三 种 类 型 的 单元 ， 感知 单元 ， 联 
想 单元 种 啊 应 单元 。 感 知 单元 和 联想 单元 之 间 的 连接 有 固定 的 权 值 ， 而 联想 单元 和 响 
应 单元 之 加 的 连接 县 有 变化 的 权 值 。 联 想 单元 扮演 的 是 设计 成 一 个 从 环境 输入 中 抽取 
模型 的 其 处 理 姻 的 角色 。 碌 仅 关 心 可 变 权 值 而 论 ，Rosenblatt 的 原始 感知 能 的 运行 与 只 
有 一 个 响应 单元 { 即 单个 神经 元 ) 的 特殊 情况 是 基本 一 致 的 。 

12] 对 一 个 向 量 的 微分 
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it flwi zene at w h — AEEA, oO Ww 的 导数 定义 为 如 下 问 量 : 
a [ee 


ZENJ Dw dp, 
这 里 m 是 问 量 whee. PAP Ree. 
情形 1 PRK SWE MAAR: 


fiw) = x’w = Tus 


ow 


因此 ， 
at =%, ‘G2 1,2,,m 
或 等 价 地 ， 以 矩阵 形式 表示 : 


情形 2 PRAY w EHO. 
Fiw) = w Rw = > a 


lst Yel 


这 里 Emx mHE RKR y nR. AIE, 


Ow. fly 
ok Sih. CURE : 
A DA AEA SE a AE OB A 
[3] 正定 矩阵 


一 个 mx m 短 阵 及 被 称 为 是 非 负 定 的 ， 如 果 它 满足 条 件 
a Ra = 0 ASHER a c R” 
假如 条 件 中 的 不 等 式 满足 ， 抢 阵 及 被 称 为 是 正定 的 。 
ERR R 的 一 个 很 重要 的 性 质 是 它 是 非 奇 异 的 ， 因 此 遂 和 矩 阵 及 :存在 。 
正定 矩阵 及 的 男 一 个 重要 的 性 质 是 它 的 特征 值 或 特征 方程 det(R) =0 的 根 全 部 为 正 。 
[4] Mee 
H” 7 FE AY Zames( 1981) 52 AY, JETE Zames and Francis( 1983) it—2 ARE. Doyle et al. 
(1989), Green and Limebeer( 1995) 和 Hassibi et al. (1998) 也 对 这 个 淮 则 进行 了 讨论 。 
[5] AY othe LMS 算法 的 局 限 性 ， 即 收 语 速度 较 慢 和 对 相关 和 窍 阵 R, 的 条 件数 变化 反应 过 
于 灵 竹 ， 我 们 可 以 使 用 递归 最 小 二 乘 (recursive least-squares, RLS) 算 法 ， 它 利用 我 们 在 
3.4 TPR ER) — FR ER BRETT IB SEA, RLS 算法 是 Kalman 滤波 器 的 一 个 
PPP, Sa RA A PRES T ERRER a. PERAE, Kalman 滤波 器 计 
算 利 用 所 有 过 去 扩 诬 的 数据 并 包含 进行 计算 时 的 时 间 常 数 。 关 于 RLS 算法 以 及 RIS 算 
法 和 Kalman 滤波 齿 的 关系 的 更 多 细节 ， 参 见 Haykinf 1996), Kalman 滤波 器 将 在 第 15 章 
中 讨论 。 
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习题 
无 约束 最 优化 
3.1 研究 包 合 一 个 权 值 w 的 最 速 下 降 法 ， 考 虑 下 列 代价 函数 ; 
| ， i 2 
lw) = 4% Te Fe 


mo, 7 Wr, 都 是 常数 . 
3.2 APR er wee 


E(w) = zo -W+ 5w' Rw 


| _ | ] i 
19,354 d’ 0.8182 1 
(aj 求 使 6(w} 达 到 最 小 的 最 优 值 Ww' 。 
(hb) 对 下 列 两 个 学 习 率 参数 用 最 速 下 降 法 计算 w* ， 
(i)n=0.3 
(iijn=1.0 
对 每 一 种 情况 ， 柄 出 权 值 向 量 win) 在 殉 -平面 演化 产生 的 轨迹 。 
提示 : 《hb 部 分 中 情形 (和 情形 (ii) 的 轨迹 应 与 图 3-2 中 的 图 形 对 应 。 
3.3 考虑 式 (3.24) 的 代价 滑 数 ， 它 作为 式 (3.17) 中 定义 的 误差 平方 的 和 的 人 收 正 形式 ， 
证 明 Gauss-Newton 方法 对 式 (3.24) 中 的 应 用 是 产生 式 (3,23) 描 述 的 权 值 更 新 。 
LMS 算法 
3.4 LMS 算法 中 输入 向 量 x(n AE R 定义 为 
l wd 
0.5 1 
定义 LMS 算法 在 均 方 收 仇 下 的 学 习 率 参数 1 的 取 值 范围 。 
3.5 正规 化 LMS 算法 通过 以 二 对 权 值 向 量 的 递归 形式 表示 ， 


Win +l) = Wn) + en x(n) 
| x(n) | 


这 里 ?是 正常 数 且 站 xn) || BRAT St 和 am) 的 欧 几 申 德 范 数 。 误 盖 elm EMH 
eln) = d(n) — ¥' (Cn) x(x) 
这 里 dn) 是 期 望 响 应 。 为 了 使 下 规 化 LMS BAR ae, 证明 
O<y< 2 

3.6 LMS FESR” XSSeHA Ras, SUES 2-16 所 示 。 建 立 系统 运 行 的 方程 ， 和 假设 
神经 网 络 使 用 的 是 单个 神经 元 。 

3.7 考 应 一 个 由 样本 x(n 一 1])，xtn 一 2),，"…，x(n--m) 组 成 的 输入 向 量 的 线性 预测 
ar, RE m 是 预测 阶 数 。 要 求 利 用 LMS 算法 得 到 输入 样本 x (Cn) 的 预测 *(n)。 建 立 用 来 计 
PN ae FR wi, w, oo, w, 的 递归 关系 式 。 

3.8 作为 误差 平方 和 副本 的 总 体 均 值 被 看 作 代 价 函 数 ， 它 是 下 面 误差 信和 号 的 均 方 值 ， 


ww ai bbt.com PO00ODOO 





151 


132 


| 153 


106 #3 F 


Iw) = 5 Ele(n)] = FE[(d(n) x(n)w)’) 
a) 假设 输入 种 量 x(n) ABA dCnd RARER, UCHR 
i(w) = +o — Tow + Tw’ Rw 
这 里 a,= El d’(n)] 
ri = E.x(n)dla)| 
R = Elx(n)x'(n)] 
(OR AAR AS, EHER al A J Cw) i) Hessian 矩阵 分 别 为 如 下 形式 : 
g=-T,, + Rw 
H= R, 

(e) TE LMS/Newton 算法 中 梯度 向 量 g 可 以 被 它 的 瞬时 值 苦 代 (Widrow and Steams, 1985 ), 

证 明科 上 册 学 习 率 参数 | 时 这 种 算法 可 以 表示 如 下 : 
intl) = Wn) + ARI x(n)(d(n) — x"(n)wln)) 

相关 定 阵 R 的 道 假设 为 止 定 的 ， 是 事先 计算 好 的 。 

3.9 在 此 题 中 我 们 重新 访问 在 2.11 节 中 讨论 的 相关 征 阵 记忆 。 这 个 记忆 的 一 个 缺点 是 
当 为 它 握 供 一 个 关键 模式 x 时 ， 记 忆 体 产生 的 实际 响应 木 能 足够 (在 欧 几 里 德 的 意义 下 ) 
靠近 期 望 响应 (记忆 模式 )y, 以 便 记 人 忆 可 以 很 好 联想 。 这 个 缺点 是 因为 Hebb 学 习 固 有 的 ， 它 
没有 利用 从 输出 到 输入 的 反馈 。 为 了 补救 这 个 缺点 ， 我 们 可 以 在 记忆 设计 中 耦合 一 个 误差 修 
EHL], IEE EIS MHRA ( Anderson, 1983 1 

EM 2) 2h RSME TEA ITB n 次 选 代 学 习 的 记忆 矩阵。 记忆 和 矩阵 M my AE 
Zune AF : 

KR, — Ys E Meg 
Ca) 来 用 [MS 算法 解雇 这 个 问题 ， 证 明 记 忆 征 阵 的 更 新 值 定 多 为 
M(n +1) = M(n) + "LY; _ M(n)x, |x! 

这 里 了 是 学 避 率 参数 。 

Cb) 3} BRM, yax 对 这 个 特例 ， 证 明 当 选 代 次 数 n BASH, 记忆 自 联想 得 很 
tf, EPES] 

M(o)x, =x,, & = 1,2,-",4 

(co) 在 (b) 中 的 结果 可 以 被 春 作 一 个 特征 值 问题 。 在 这 个 关系 下 ，x, 表示 Mo ) 的 一 个 
特征 向 量 。 求 M( © ) 的 特征 值 ， 

3.10 此 是 中 我 们 研究 偏 置 对 一 个 相关 矩阵 条 件数 的 影响 以 及 LMS 算法 的 性 能 。 

考虑 一 个 随机 商量 买 ， 它 的 协 方差 矩阵 为 


均值 为 由 = 出 
(a) TTS BT SESE OC 的 条 件数 。 
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(bjt BAKE R 的 条 件数 。 
TERE u 对 LMS 算法 性 能 的 影响 。 
Rosenbiatt 的 感知 器 
3.11 此 题 中 ， 我 们 考虑 另 一 种 导出 Rosenblatt AE BPA TK. ae SLA BEE 
则 函数 (Duda and Hart, 1973) 
J íw) = (- w'y) 


1 Fw 
i HE Cw) An AEL Bt w 的 选择 错 演 分 类 的 样本 集 。 注 意 ， 如 果 设 有 错误 分 类 样本 ， 
J, Ow) RE ONE, HEU w xs<0 输 出 是 错误 分 类 的 . 
(a) JLT EHER 夺 (w) 是 与 错误 分 类 样本 到 决策 边界 的 欧 妃 里 德 噬 离 的 和 成 比例 的 。 
bb) 求 (LW) 对 权 值 问 量 w 的 梯度 ， 
‘利用 (bb) 中 得 旬 的 第 来， 证 明 感 知 器 的 权 但 史 新 是 
Wint+1) = win) + nn) fi." 
这 里 名 (w( n)) 表 示 用 权 值 向 量 w( nn RRMA, Boon) RAE RS, EMER 
对 蛙 桩 本 修正 的 情形 写 式 (3.54) 和 (3.55) 描 述 的 情形 是 基本 一 致 的 。 
3.12 ”证明 总 结 感知 咒 收 合算 法 的 式 (3.68) 至 (3.71) 是 与 式 (3.54) 和 (3.55) 一 致 的 。 
3.13 性 让 两 个 -- 维 Gauss AARRE 和 思 ,， 它 们 的 方 莽 均 为 1。 它们 的 均值 为 
a sli 
ut, = + 10 
这 两 个 类 本 质 上 是 线性 可 分 的 。 设 计 一 个 分 类 器 来 分 离 这 两 个 类 。 
3.14 假设 图 3-6 FEHER = iit lh ae ER ae Be F sigmoid EZR TE SPIE : 
gly) = tanb( = | 
这 里 Rah, ARAB A PRR KE MHF : [154] 
URME y > 6 WA x BTG, RE o ER; Z, x RFS,. 
3.15 (a) RAIS Al LA ART AR RA A EH ER — AE oe (AND), BK 
(OR) AF ( COMPLEMENT) 的 实现 。 
(b) BRA as HI — TP FEAR Jey ER ET RK KOR 函数 : 解释 造成 这 个 局 限 的 原因 。 
3.16 7X(3.86)A1(3.87)2E X% Bayes 分 类 在 Gauss IPA T HAR ARE, SY Se 
Me C 
C= ol 155 | 
乍 交 时 ， 求 此 分 类 艇 的 构成 ， 这 里 = 是 常数 、 


ww ai bbt.com TAAWAOnAA 





ww ai bbt.com TAAWAOnAA 





B48 SR RA 


4.1 fast 


在 这 一 章 我 们 学 习 多 层 前 馈 网 络 ， 它 为 神经 网 络 的 重要 一 -类 。 这 种 网 络 典 型 地 由 三 部 分 
组 成 : 一 组 感知 单元 ( 源 节 点 ) 组 成 输入 屋 ， 一 层 或 多 层 计 算 节 点 的 隐藏 层 ， 还 有 一 层 计算 下 
点 的 输出 县 。 输 入 信号 在 层 层 递 进 基 础 上 前 呵 传播 通过 网 络 。 这 些 神经 了 网络 通 币 被 称 为 多 车 
感知 器 (multilayer perceptrons ,MLPs) ， 它 代表 种 3 章 考 庶 的 单 层 感 千古 的 推广 。 

在 监督 学 习 的 方式 下 使 用 通称 为 误 善 反 向 传播 算法 这 种 非常 普 还 的 算法 训练 多 层 感 动 
器 ， 它 们 已 经 成 功 应 用 于 不 同 的 复 桨 而 困难 的 问题 。 误 善 反 向 传播 算法 是 基于 误差 修正 学 习 
规则 的 。 因 此 , 它 可 以 被 看 成 是 同样 普遍 使用 的 自 适 应 滤波 算法 的 推广 : 在 第 3 章 描述 的 用 
于 单个 神经 元 情 珍 常用 的 最 小 均值 平方 (LMS) 算 法 。 

基本 上 ， 误 善 反 疝 传播 学 习 由 两 次 经 过 网 络 不 同 层 的 通过 组 成 : 一 次 前 向 通过 和 一 次 反 
向 通过 。 在 前 向 通过 中 ， 一 个 活 动 模式 (输入 向 量 ) 作 用 于 网 络 感 知 帮 点 ， 它 的 影响 经 过 网 络 
一 层 接 一 层 地 传播 。 最 后 ， 产 生 一 -个 输出 作为 网 络 的 实际 响应 。 在 前 向 通过 中 ， 网 络 的 突 触 
权 值 全 为 固定 的 。 男 一 方 而 ， 在 上 反 向 通过 中 ， 突 触 权 值 全 部 根据 人 避 差 修正 规则 来 调整 。 特 别 
是 从 目标 响应 减 去 网 络 的 实际 啊 应 而 产生 误差 信和 号。 这 个 误差 信和 号 反 同 传播 经 过 网 络 ， 与 突 
触 连 接 方 向 相反 一 一 因此 叫 “ 误 差 反 向 传播 ”"。 突 触 权 值 被 调整 使 得 网 络 的 实际 响应 从 统计 意 
EEEO M. RAR BRIE MRP RA A ty te dh HK ( back-propagation 
algorithmy， 或 是 简单 称 为 反 向 传播 {back-prop)。 今 后 我 们 把 它 称 为 反 向 传播 算法 。 由 算法 执 
行 的 学 习 过 程 被 称 之 为 反 向 传播 字 习 。 

多 层 感 知 右 有 三 个 突出 的 特点 : 

1. 网 络 中 的 每 个 神经 元 模型 包括 -一 个 非 线 性 激活 函数 。 在 这 里 要 强调 的 非常 和 里 要 一 点 
是 ， 与 Rosenblatt 感知 器 使 用 的 醒 限 幅 呆 数 相反 ， 非 线性 是 光 清 的 ( 即 处 处 可 徽 )。 训 足 非 线 
性 要 求 的 一 个 普遍 应 用 形式 是 由 logistic 函数 


小 


l 
”1 + expl— o) 


定义 的 sigmoid FERRE’), BP ov, 是 神经 元 i 的 诱导 局 部 域 ( 邮 所 有 突 触 输入 的 加 权 和 减 去 偏 
Z), y 是 神经 元 j 的 输出 。 非 线性 的 出 现 是 很 重要 的 ,否则 网 络 的 输入 输出 关系 会 被 归结 
为 单 层 感 知 器 所 具有 。 而 且 ，lopistic BARRE OS Lee, AN ERR IE 
经 元 的 有 反 描 期 (refra ctory) BrE- 

2, 网 络 包 括 一 层 或 多 层 隐 蕊 神经 元 ， 它 们 不 是 网 络 输入 输出 的 部 分 。 这 些 隐 着 层 神经 
元 逐步 从 输入 模式 (向 量 ) 中 提取 更 多 的 有 用 特征 ， 可 以 使 网 络 学 习 复杂 的 任务 。 

3, 网 络 展 东 出 高 关 的 连接 性 ， 它 出 网 络 突 和 触 闫 定 。 网 络 连接 的 改变 需要 突 触 连接 数量 
或 其 权 值 的 改变 。 

正 是 出 上 述 特性 以 及 通过 训练 从 经 验 中 学 习 的 能 力 相 结合 使 得 多 层 感知 髓 具有 它 的 计算 
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能 力 。 然 而 ， 同 样 这 些 特性 导致 现 阶 段 关 于 网 络 行为 的 知识 的 缺乏 。 首 完 ， 由 十 非 线 性 分 布 


式 的 存在 和 网 络 的 高 度 连 接 性 使 得 多 层 感 知客 的 理论 分 析 难 于 进行 。 第 二 ， 了 隐藏 层 的 使 用 使 
得 学 习 过 程 变 得 更 不 可 想像 。 就 问 接 的 意 多 出言 ， 学 习 过 程 必须 决定 输入 模式 的 哪些 特征 应 
该 由 隐藏 居 忆 经 元 表示 出 来 。 学 习 过 程 因 此 变 得 更 困难 了 ， 因 为 不 得 不 在 大 得 多 的 可 能 阔 数 
宝 间 中 搜索 ， 同 时 不 得 不 在 输 人 柳 式 的 不 同 表 示 中 进行 选择 (Hinton,1989) .. 

“ 芭 问 传 捕 "这 个 词 的 使 用 出 现在 1985 年 后 ， 而 它 的 广泛 使 用 是 在 & Parallel Distributed Processing) 
(Rumelhart and MeClelland,1986) 这 本 书 出 版 以 后 。 关 于 反 向 传播 算法 的 历史 注释 ， 请 看 1.9 节 。 

反问 传播 看 法 的 发 展 是 神经 网 络 发 展 史 上 的 一 个 里 程 碑 ， 因 为 它 为 训练 多 屋 感 知 器 提供 
了 一 个 有 兹 的 计算 方法 。 虽 然 我 们 不 能 说 反 向 传播 算法 为 所 有 待 解决 的 问题 都 提供 了 最 优 
解 ， 但 是 它 使 多 屋 机 器 的 学 习 前 景 不 再 和 Minsky 和 Papert 在 其 1969 年 所 着 的 书 中 所 暗示 的 
那样 悲观 ， 


本 章 的 组 织 


在 本 章 中 ， 我 们 学 习 多 层 感 知 回 的 基本 知识 以 及 反 疝 传播 学 习 。 本 章 有 七 个 部 分 。 第 一 
郭 分 从 4.2 布 到 4.6 节 ， 讨 论 与 反问 传播 学 习 有 关 的 问题 。 在 4.2 节 为 引出 反 向 传播 算法 作 
一 些 茹 步 的 铺垫 。 在 4.3 太 用 微分 的 链 式 规则 详细 导出 该 算法 ; 在 给 出 的 推导 中 采用 传统 的 
方法 。 在 4.4 节 对 算法 提出 一 个 概述 。 在 4.5 节 通 过 解决 XOR 问题 这 个 例子 说 明 如 和 何 使 用 反 
HIRR, XOR 问题 是 一 个 有 趣 的 问题 、 但 用 单 层 感知 器 是 无 法 解决 的 。 在 4.6 节 , 为 了 
反问 传播 算法 实现 得 更 好 我 们 给 出 一 些 启发 式 方法 或 实际 的 指导 方针 。 

第 二 部 分 从 4.7 节 到 4.9 节 ， 讨论 多 层 感知 器 在 模式 识别 中 的 用 途 。 在 4.7 节 介 绍 使 用 
多 层 感知 器 解决 统计 模式 识别 问题 的 规则 。 在 4.8 节 用 一 个 计算 机 实验 作为 实例 阐述 反 疝 传 
措 学 习 应 用 于 区 分 具有 二 维 重 玲 Gauss 分 布 的 两 类 情况 。 在 4.9 DTIC MSIE AH 
征 检 测 器 的 重要 作用 。 

本 章 的 第 二 部 分 ， 包括 从 4.10 节 到 4.11 节 ， 处 理 误差 曲面 的 问题 。 在 4,10 节 讨 论 反 向 
传播 学 习 在 计算 通 近 函数 俩 导数 中 的 重要 作用 。 然 后 在 4.11 节 讨论 与 误差 曲面 的 Hesian 4 
阵 相 联系 的 计算 问题 。 

囊 四 部 分 ,我 们 处 理 与 用 反 向 传播 算法 训练 过 的 多 层 感知 乾 性 能 有 关 的 各 种 问题 。 在 
4.12 六 讨 论 泛 化 问题 ， 它 是 关于 学 习 的 一 个 非常 本 质 的 问题 。 在 4.13 节 讨 论 通 过 多 层 感 知 
让 得 到 的 连续 国 数 的 通 近 。 在 4.14 节 讨 论 把 交叉 确认 作为 统计 设计 的 工具 。 在 4.15 HHR 
用 一 个 程序 有 序 地 修剪 一 个 多 层 感知 髓 而 同时 使 其 整体 性 能 至 少 保 持 不 变 ( 和 不 断 提高 )。 当 
计算 复杂 性 是 首要 关心 的 问题 时 ， 网 络 修 前 就 成 为 必要 的 。 

第 五 部 分 完成 反 向 传播 学 习 的 研究 。4.16 节 总 结 反 疝 传播 学 习 的 重要 优点 和 局 限 。4.17 
世人 研究 启发 式 方法 ， 它 为 如 何 加 速 反 向 传播 学 习 的 收复 速率 提供 一 个 指导 方针 ， 

第 六 部 分 我 们 用 一 种 不 同 的 观点 来 看 竺 学习 。 以 提高 学 习 为 目的 ,在 4.18 节 讨 论 监督 
学 习作 为 一 个 数值 优化 阅 题 的 话 是 。 特 别 地 ， 我们 描述 用 于 监督 学 习 的 共 扼 梯度 方法 和 殷 
Newton 方法 。 

这 一 章 最 后 一 部 分 4.19 节 讨 论 多 层 感 知 器 本 身 。 在 那里 我 们 讨论 一 种 有 趣 的 神经 网 络 
瞧 积 多 层 感 和 却 宪 。 这 种 网 络 已 经 成 功用 于 解决 困难 的 模式 识别 问题 。 

在 4.20 节 以 一 些 一 般 性 讨论 作为 本 章 结 束 。 





结构 
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图 41 RAN PA ee A PA ee A TAS. A SPS ee 
Alek — BO OREO, Ee A, De TE TE es EP eo 
它 之 前 的 层 上 的 上 所 有 有 主 点 /神经 元 部 连接 起 来 .信和 渎 在 一 层 接 一 层 的 基础 上 逐步 流 过 ， 方 向 
ERWE, MAA. 





图 4.1 具有 两 个 隐藏 层 的 多 层 感知 器 结构 图 


图 4-2 描绘 多 层 感 知 几 的 一 部 分 。 两 种 信号 都 
在 这 个 网 络 中 得 到 辨认 (Parker, 1987) ; 

L. 也 数 信 号 。 一 个 函数 信和 号 是 从 网 络 输入 层 的 
来 病 而 及 的 一 个 输入 信号 (刺激 )， 通 过 网 络 { 一 个 
神经 元 接 一 个 神经 元 ) 传 播 ， 到 达 网 络 输 笑 层 的 末 
嵌 即 成 为 一 个 输出 信 导 。 我 们 把 这 样 一 个 信号 称 之 
为 "函数 信号 "有 两 个 床 国 。 首 匈 ， 在 二 络 输 出 庙 时 
BEZERRA WSHA O S., ERRE E E 
网 络 上 每 一 个 神经 元 处 ， 该 让 信号 都 被 当成 输 和 人 出 图 二 2 多 层 感知 器 中 两 个 基本 信和 叶 流 
及 与 该 神经 元 有 关 的 权 值 的 一 个 销 数 来 计算 的 。 敬 的 方向 图 示 : 函数 信号 的 前 向 传播 和 误 
数 入 号 也 被 认为 是 输入 信号。 差 依 导 的 反 疝 传播 

2. RE S. 一 个 误差 信号 产生 于 网 强 的 一 个 输出 神 举 元 ， 并 通过 和 网络 { 一 层 挡 一 上 丢 ) 
反 疝 传播 。 我 们 称 之 为 "误差 信号 "是 国 为 网 络 的 每 一 个 神经 元 对 它 的 计算 部 以 这 种 或 那 种 形 
A RiR IK Bi aR 

得 出 神经 元 (计算 节点 ) 构 成 网 络 的 输出 屋 ， 余 下 的 神经 元 (计算 节点 ) 构 成 网 络 的 隐藏 
屋 。 内 此 隐藏 层 单元 并 不 是 网 络 输出 或 输入 屋 的 -= 部 分 一 一 内 此 它们 存 称 为 "隐藏 "。 第 一 胸 
藏 层 的 信号 是 从 由 感知 单元 ( 源 节 点 } 组 成 输入 层 馈 给 的 ; 而 它 的 结果 信和 号 又 应 用 于 下 一 个 隐 
ie; 网 络 的 其 余部 分 依 此 类 推 . 

多 居 感 知 器 每 一 个 隐藏 层 或 输出 层 的 神经 元 被 设计 用 来 进行 两 种 计算 

L 计算 一 个 神经 元 的 输出 处 出 现 的 西数 信号 ， 它 表现 为 关于 输入 信号 以 及 与 该 神经 元 
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2. PPE ee Bee a ea A A Be AIT. Em 
要 反问 通 过 网 络 。 

友 问 传播 算法 的 村 出 是 相当 地 复杂 ， 要 减轻 这 个 导出 所 涉及 的 数学 负担 ， 我 们 首先 给 出 
在 推导 中 使 用 的 符号 的 一 个 小 结 。 


符号 


” Si, 了 和 下 是 指 网 络 中 不 同 的 神经 元 ; 由 于 信和 号 在 网 络 中 从 左 向 右 传 播 ， 神经 元 j 

Pree RFE ee oe i MERAH, mHE j 是 隐藏 层 单元 时 神经 元 所 在 层 在 

神经 元 ; 所 在 层 的 左边 ， 

在 适 代 (时 间 步 }xn， 网 络 的 第 n TUR (IF) SRAM. 

TFE n JRE e 时 的 瞬间 误差 平方 和 或 瞬间 误差 能 量 和 。 关 于 所 有 nn( 即 整个 训 

Se ATE Cn) PPS BD APE RAE RE... 

© FE e (a THO BIER n AAC) RRS. 

。 符 号 dn) FMT j 的 期 望 响应 并 用 于 计算 。(m)。 

n 5 yC TEPEE n ERER; 的 输出 处 的 函数 信号. 

© FF S 好 tan) 表示 突 触 权 值 ， 该 权 值 是 选 代 n 时 从 神经 元 z 的 输出 连接 到 神经 元 i 的 输 
Ao ATIE n MER N Aw, (Cn). 

+ AÈ ”时 神经 元 / 的 诱导 局 部 域 ( 即 所 有 突 触 输入 的 加 权 和 加 上 篇 置 ) 记 为 w(z); € 
构成 作用 于 神经 元 j 激活 函数 的 信号 。 

。 用 来 描述 神经 元 j 的 非 线 性 输入 一 一 输出 函数 关系 的 激活 函数 表示 为 pC) 

* 用 于 神经 元 7 的 偏 置 用 & 表示 ; 它 的 作用 可 由 一 个 与 等 于 +1 的 固定 输入 相连 的 权 
{HA wo = 6, 突 触 表示 。 

© Fa A OR) i SURF x, (nm) 表 示 。 

* Hi [9] CRAB k TRH on Ba 

学 可 率 参 数 记 为 Ne 

AS m 表示 多 层 感知 器 的 第 了 层 的 大 小 { 即 节 点 的 数目 ); 2=0, 1,，…， L, MLY 

是 网 络 的 "深度 ”"。 因 此 m RAR AIK, m 十 第 一 个 隐藏 层 的 大小 ， nm, FER 

出 后 的 太 小 。 也 使 用 记号 m, = M. 





4.3 反问 传播 算法 
神经 元 j PETE n I (BI BASS 个 训练 例子 ) 输出 误差 信号 定义 如 下 ; 
etn} = dkn) — y(n) 神经 元 了 是 输出 节点 (4.1) 


我 们 将 神经 元 j 的 误差 能 量 瞬 间 信 定义 为 (1/2)ei(na)。 相 应 的 ， 整 个 误差 能 量 的 瞬间 值 党 ( m ) 
即 为 输出 层 的 上 所有 神经 元 的 庄 差 能 量 瞬 间 值 的 和 ; 这 些 只 是 那些 误差 信号 可 被 直接 计算 的 
可见 "神经 元 。 因 此 ，%(n) 的 计算 公式 是 


Ela) = 4 De}Cn) (4.2) 
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集合 蕊 包括 网 络 输出 层 的 所 有 神经 元 。 令 W 记 为 包含 在 训练 集中 模式 { 例 了 于) 的 总 数 。 对 及 
有 求 旬 (rn) 的 和 然后 关于 集 的 大 小 规整 化 即 得 的 均 方 误差 能 量 ， 表 示 为 


€.= 5 2 Eln) (4.3) 


SEE AEE AURA (ES (ENR BE BHEE, ERA A H e BR ( BOS BK 
乎 ) 的 函数 。 对 下 一 个 给 定 的 训练 集 ， 旬 ,表示 的 代价 函数 作为 学 习性 能 的 一 个 量度 。 学 习 过 
程 的 目的 是 调整 网 络 的 自由 参数 使 得 最 小 化 名,。 要 达到 这 种 最 小 化 ， 我 们 使 用 第 3 CHES 
LMS 算法 所 用 原理 相似 的 一 个 通 近 。 特 别 地 ， 我 们 考虑 一 个 训练 的 简单 方法 ， 即 权 值 在 一 个 
模式 接 一 个 模式 的 基础 更 新 ， 直 到 一 个 回合 epoch) 结束 ， 也 就 是 整个 训练 集 的 完全 表示 已 
被 网 络 处 理 。 权 值 的 调整 根据 每 个 呈现 给 网 络 的 模式 所 计算 的 各 自 的 误差 进行 。 因 此 ， 这 些 
单个 权 值 在 训练 集 上 的 改变 的 算术 平均 ， 是 基于 使 整个 训练 集 的 代价 函数 色 .最 小 化 的 真实 
权 值 改变 的 一 种 估计 。 在 这 一 节 的 后 面 ， 我 们 将 给 出 这 种 估计 的 性 质 。 

然后 考虑 图 4-3， 它 描绘 神经 元 j 被 它 左 边 的 - - 层 神经 元 产生 的 一 组 函数 信号 所 锁 给 。 
因此 ， 在 神经 元 j 的 激活 函数 输入 处 产生 的 诱导 局 部 域 w(n) 是 


uin) = Dy ws (m) y(n) (4.4) 
神经 元 j 
yo= +1 c 
: wolni) = b(n) un 
J Ne) fe) | 


图 4-3 显现 输出 神经 元 细节 的 信和 号 流 图 
这 里 m 是 作用 于 神经 元 i 的 上 所 有 输入 (不 包括 偏 置 ) 个 数 。 突 能 权 值 ws (相应 于 固定 输入 
yo = +1) 等 于 神经 元 j ARE bo MUER n 时 出 现在 神经 元 j 输出 处 的 包 数 信和 号 y(n) 是 
yin) = ptv{(n)) (4.5) 
肥 向 传播 算法 以 与 LMS 算法 类 似 的 方式 对 突 触 权 值 w;(n) 应 用 一 个 修正 值 Aw;(n), È 
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正比 于 名 (n) 对 w,(n) 的 偏 导数 2%(n)13w,(n)。 根 据 微分 的 链 式 规则 ， 可 以 将 这 个 梯度 表示 
为 


I€(n) an) de tn) Iy tn) Iyn) (4.6) 
dwn) T Jelan) ay,Cn) du(n) dw, Cn) ) 


a PIE (ne dw, (n RR ARRAT, DOE SS HUE ww;(n) 在 权 值 空间 的 搜索 方 同 。 
在 式 (4.2) 两 边 对 e Cn) Raat, 我们 得 到 
Jel) 














i (4.7) 
在 式 (4.1) 两 边 对 y fa) 取 微分 ， 得 到 
加 本 (4.8) 
接着 ， 在 式 (4.5) 两 边 对 v(n) 取 微分 ， 得 到 
ns = ¢ (v,(n)) (4.9) 
最 后 ， 在 式 (4.4) 两 边 对 w (n) 取 微分 ， 得 到 
ey emia (4.10) 
将 式 (4.7) 至 (4.10) 代 入 式 (4.5)， 得 到 
Fa =- MG Cyn) y(n) 4.11) 
应 用 于 wi (n) 的 修正 Aw, (nn) 由 delta 法 则 定义 为 
Aw,(n) =- Fao (4.12) 


其 中 是 反 同 传播 算法 的 学 习 率 参数 。 式 (4.12) 中 负 号 的 使 用 意味 着 在 权 空 间 中 梯度 下 降 
( 即 寻 找 一 个 使 得 (nn) 值 下 降 的 权 值 疏 变 的 方 同 )。 于 是 将 (4.11) 代 入 (4.12) 中 得 到 





Aw, ln) = ,Cn y(n) (4.13) 
这 里 局 域 梯 度 8.tn) 定 义 为 
os z dln) Jein) Iyin) E , 
(n) =- dv(n) ~ eln) dy,(n) du, (n) = e(njg’j(v(n)) (4.14) 


局 域 梯度 指明 突击 权 值 所 需要 的 变化 。 根 据 (4.14)， 输 出 神经 元 j 的 局 域 梯度 d (a) BER 
神经 元 相应 误差 信号 e,(n) 和 相应 激活 阴 数 的 导数 g (w (na)) 的 乘积 。 

从 式 (4.13) 和 (4.14) 我 们 注意 到 ， 权 值 调整 Aw, (n) 计 算 所 涉及 的 一 个 关键 因子 是 神经 
元 ;输出 端的 误差 信号 e(n)。 在 这 种 情况 下 ， 我 们 要 根据 神经 元 的 不 同位 置 ， 区 虽 两 种 不 
同 的 情况 。 第 一 种 情况 ， 神 经 元 是 输出 节点 。 这 种 情况 的 处 理 很 简单 ， 因 为 网 络 的 每 一 个 
输出 节点 都 提供 自己 期 望 的 反应 信和 号， 使 得 计算 误差 信号 成 为 直截了当 的 事 。 在 第 二 种 情 
况 ， 神 经 元 ) 是 隐藏 层 节点 。 虽 然 隐藏 层 神经 元 不 能 直接 访问 ， 但 是 它们 对 网 络 输出 的 误差 
共同 承担 责任 。 然 而 ， 问 题 是 要 知道 对 隐藏 层 神 经 元 这 种 共 担 的 责任 如 何 进行 惩罚 或 奖赏 。 
这 就 是 在 2.7 节 中 讨论 过 的 信任 赋值 问题 。 这 已 被 经 过 网 络 反 向 传播 误差 信号 成 功 地 解决 
re / 
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情况 1 神经 元 /是 输出 节点 

当 神 经 元 了 位 于 网 络 的 输出 层 时 ， 给 它 提供 自己 的 :~ 个 期 望 啊 应 。 我 们 可 以 用 陈 (44.1) 
来 计算 这 个 神经 元 的 误差 信号 olah 参看 图 4-3。 当 e (nn) 确定 以 后 ， 用 式 (4.14) 来 计算 局 
域 梯度 ô Cn EIR HIN 
情况 2 神经 元 /是 隐藏 层 节 点 

当 神 经 元 j 位 于 网 络 的 隐藏 层 时 ， 就 没有 对 该 辆 入 神经 元 的 指定 期 绢 响应 。 因 此 ， 隐 
藏 层 的 误差 依 导 要 根据 所 有 与 隐藏 层 神经 元 直接 相连 的 神经 元 的 诱 善 米 递 归 雇 定 。 这 吏 是 
为 什么 反 回 传播 算法 的 发 展 变 得 很 复杂 的 地 方 。 考 虑 在 图 4-4 PRAM. EAH 
神经 元 了 镶 是 一 个 网 络 隐藏 层 节 点 。 根 据 式 (4.14) 我 们 可 把 隐藏 屋 神经 元 的 局 域 梯度 重新 








定义 为 
IB(n) Ay(n) 28a) uy 
5,(n) ~~ dy (n) dv,(n) ne PRES TL j 是 隐藏 的 (4.15) 
神经 元 1 神经 元 让 

一 一 一 
ztia +Í G 

s WP = b, (r) : 

dain) 
w (rt) | vn) gi) y,(zt) WAH) vin) PC} yen) -1 
ydr} a @ a a F 二 D e,{n} 


图 4-4 显现 输出 神经 元 上 连接 到 隐藏 神经 元 7 的 信和 号 流 图 


在 公式 的 第 二 行 我 们 用 到 了 式 (4.9)。 要 计算 偏 导 粥 Cn)/93y{n) 我 们 进行 如 下 人 外 理 。 从 图 4-4 
可 以 看 到 
Eln) 了 Della), 神经 元 上 是 输出 节点 (4.16) 
keL 


这 就 是 对 式 (4.2) 用 下 标 替代 下 标 j。 我 们 这 么 写 是 为 了 如 人 锡 写 在 情况 2 使 用 下 标 j 表示 一 
个 隐藏 神经 元 相 混 渭 。 在 式 (4.16) 两 边 对 国 数 信号 y(n) 求 偏 寻 ， 得 到 
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délin) dekn) 
ay (n) = 246 Iyn) (4,17) 


KERTI id FAN e Cn ley, n AGE, EEA INÄA SMEA 


Eln) dekn) Jn (nn) 
alar = 2486) Fy Cay By, Cn) (4.18) 


然而 ， 从 到 4-4 我 们 注意 到 
ekna) = dfn) - yhn) = dln) - plv(n)), 神经 元 天 为 输出 节点 (4.19) 











TR 
因此 3 = lnm) (4.20) 
我 们 从 图 4-4 也 要 注意 到 对 神经 元 来 说 ， 诱 导 局 部 域 是 

nin) = Sn (n)y,(n) (4.21) 


这 里 m 是 神经 元 上 所 有 输入 的 个 数 (不 包括 偏 置 )。 同 样 在 这 里 突 触 权 值 w (nm 等 于 应 用 于 
PEARL k 的 偏 置 b(n)， 相 应 的 输入 是 固定 在 值 +1 处 的 。 求 (4.21) 对 y fa) 的 微分 得 到 
dn, Cn) 








ela ee (4,22) 
用 式 (4.20) 和 (4.22) 代 入 (4,18)， 我 们 得 到 期 望 的 偏 微 分 
are == D1 nom (1) wln) = >, Cn) wy (1) (4,23) 


在 第 二 行 用 到 局 域 梯度 3,(n) 的 定义 ， 它 由 式 (4.14) 给 出 ， 其 中 用 下 标 k BE 
最 后 ， 用 去 (4.233) 代 和 人 (4.15)， 得 到 关于 局 域 梯 度 8. (nn) 的 反 向 传播 公式 
ôn) = pwn)) > (n) wyln), 神经 元 7 为 隐藏 单元 (4.24) 


图 4-5 REAU 2A Sma, Ria EA m ín) piCviln)) 
个 神经 元 。 ww, 47) 

在 陈 导 .24) 中 与 局 域 梯度 8, Cn) UT Ay SE 
因子 g (o,(n) (RAR Re Sof 的 激活 
负数 。 这 个 计算 涉及 的 其 余 因 子 ， 也 就 是 所 有 神经 


eir} 





B (rt) Wy At} Gain) gy {r)) 






€, (7) 


J k AA, (RMI PA, SRA S, fn), HF Š a 
FPR UR RG j 右 端 的 层 中 直接 与 神经 元 j 相 Pin {Vm (nm)) 
连 的 所 有 神经 元 ， 需 要 具有 误差 信号 e(n HMR: Has Aane 
参看 图 4-4, 第 二 组 项 wy (nj) 是 由 所 有 这 些 连接 的 系统 的 部 分 信号 流 轿 

究 触 权 值 组 成 的 。 


现在 ， 我 们 总 结 为 反 辣 传播 算法 导出 的 关系 。 首 先 ， 由 神经 元 i 连接 到 神经 元 HSE i 
权 值 的 校正 值 Aw, (n) H delta 规则 定 疼 如下: 


权 值 FIR) 了 局 部 1 ( 神经 元 j 
EE f= | 参数 | :| 梯度 || 输入 信号 (4.25) 
Aw, (n) n AES y(n) 


























其 次 ， 局 域 梯度 8, (n) PATHA j 是 一 个 输出 节点 还 是 一 个 隐藏 层 节点 : 
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1. UDRH j 是 一 个 输出 节点 ，5,(n) 等 于 导数 g nD Ras ela) HRT, 
它们 都 和 神经 元 j 相关 联 ; 参看 式 (4.14)。 

2. 如 采 神 经 元 7 是 隐藏 屋 节 点 ，5 (Cn) 等 于 相应 导数 pio (Cn) 和 6 的 加 权 和 的 来 积 ， 这 
HES. 是 对 与 神经 元 相连 的 下 一 个 隐藏 屋 或 输出 层 中 的 神经 元 计算 得 到 的 ， 参 看 式 (4.24)。 


计算 的 两 次 通过 


在 反 向 传播 算法 的 应 用 中 ,计算 有 两 种 截然 不 同 的 通过 。 第 一 个 通过 是 指 前 向 通过 ， 而 
第 二 个 是 指 反 向 通过 。 
和 在 前 向 通过 中 ， 经 过 网 络 时 突 触 权 值 保持 不 变 ， 而 网 络 的 函数 信和 叶 在 一 个 神经 元 接 一 个 
鲁 经 元 基础 二 计算 。 出 现在 神经 尼 了 输出 处 的 男 数 信和 叶 计 算 为 
y(n) = ofy,(n)) (4.26) 
其 中 v.(n) 是 神经 元 j 的 诱导 局 部 域 ， 由 


vin) = pre. (4.27) 


EX, RE, m 是 神经 元 j 的 所 有 输入 的 数量 (不 包括 偏 置 )， 而 w (n) 是 连接 神经 元 ; 和 神经 
JUJ RIRE, y (MERAZZI j 的 输入 信号 或 是 出 现在 神经 元 i 的 输出 端的 丽 数 全 号。 如 
采 昼 经 元 7 在 网 络 的 第 一 隐藏 展 ， 则 m = mm 且 下 标 i 是 指 网 络 的 第 i 个 输入 端点 ， 我 们 写作 

y(n) = xin) {4,28} 
这 里 r (0) Ais A CD i ook. ERA, ME hoc) 在 网 络 的 输出 层 ， 
Wmem, FAP in; STB Pees, RNS HE 

y(n) = a(n) (4.29) 
这 里 otn) 是 指 输出 向 量 { 模 式 ) 的 第 j 个 元 素 。 这 个 输出 和 期 望 响 应 & (na) 相 比较 ， 得 到 第 ; 
个 输出 神经 元 的 误差 信号 。 因 此， 计算 的 前 向 阶段 由 输入 向 量 馈 给 的 第 一 个 隐 功 层 开始 ， 以 
输出 屋 计算 该 层 的 每 一 个 神经 元 的 误差 信号 而 结束 。 

EAA, 反问 通过 从 输出 层 开 始 ， 误 差 信 号 向 左 经 过 网 络 一 层 一 层 传播 ， 并 自 弟 归 
计算 每 一 个 神经 元 的 8( 即 局 部 梯度 )。 该 递归 过 程 允许 突 触 权 值 根据 式 (4.25) 的 delta 规则 变 
化 。 对 于 位 于 输出 层 的 神经 元 ,5 简单 地 等 于 这 个 神经 元 的 误差 信和 号 磁 以 它 的 非 线 性 一 次 导 
数 。 因 此 ， 我 们 使 用 式 (4.25) 来 计算 所 有 局 人 人 输 册 屋 的 连接 的 术 值 变化 。 给 出 输出 层 神经 元 
的 SS， 接着 用 式 (4.24) 来 计算 倒数 第 二 层 的 所 有 神经 元 的 8 和 所 有 馈 人 该 层 的 连接 的 权 值 变 
化 。 通 过 传播 这 个 变化 给 网 络 的 所 有 罕 触 权 值 ， 一 层 接 一 层 连 续 递 娄 计 算 。 

注意 由 于 每 给 出 一 个 训练 例子 ， 其 输入 模式 在 整个 往返 过 程 中 是 固定 的 {钳制 的 )， 这 个 
往返 过 程 包括 前 向 通过 和 随后 的 反问 通过 ， 


激活 函数 


计算 多 层 感知 冀 每 一 个 神经 元 的 了 需要 关于 神经 元 的 激活 函数 g(* ) 的 导数 知识 。 要 导 
数 存 在 ， 则 需要 函数 pt ) 连 续 。 用 基本 术语 ， 激 活 函 数 必需 满足 的 要 求 是 可 微 性 。 通 常用 
于 多 技 感 邢 胡 的 连续 可 微 非 禾 性 激活 函数 的 一 个 例子 是 sigmoid 非 线性 人 性， 这 里 有 两 种 形式 
要 说 一 下 ; 
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l. logistic 2:4, IX FP sigmoid JE FETE ÉG — AKIE A i 


| 
a 二 et 4 1, ra 
¢,(uCn)) eee a av, (A i a> O oO < u(r) < 2 (4.30) 


EX, Bo Cn) Ae goo j 的 诱导 局 部 域 。 根 据 这 种 非 线 性 性 ， 输 出 的 范围 位 于 0s v1 
之 内 。 对 式 (4.30) 取 vo Cn, REE 


aexptl— av,(n)) 
penlan) T [ + expl — av,(n))}° (4.35) 


HF y(n) = p(w))， 我 们 可 以 从 式 (4.31) 中 消去 指数 项 exp( - av(n))， 所 以 导数 p(w 
(a) A] sean A 


gj(u(n)) = ay (n)[l—- y(n)) (4.32) 
因为 神经 元 位 于 输出 层 ， 所 以 y(n) =0,(n). 因此 可 以 将 神经 元 j 的 局 域 梯度 表示 为 
SR) = ekn)g, (otn)) = aldin} -ol(mlo(tn)ll ~ o,(n)] (4.33) 


这 里 的 o Cn EAT j A aS, M d (5n) 是 它 的 期 望 响应 。 另 一 方 而， 对 任意 
的 一 个 隐藏 层 神 经 元 7， 我 们 可 以 将 局 域 梯度 表示 为 
ò; (n) = pilya) > 34 (2) wy (2) 


= ay,(n}l1 -— y(n) ] 555, (n) w,(n), 7 为 隐藏 神经 无 


MASDI HAB, FA (a, (2) )™4 y(n) =O.5R RRA. 4 y(n) =O BK y(n) =1 
时 取 它 的 最 小 值 (0)}。 既 然 网 络 的 一 个 突 触 权 值 的 变化 总 量 与 导数 9 Co, (Cn) REL, AX 
于 一 个 sigmoid 激活 函数 来 说 ， 突 触 权 值 改变 最 多 的 神经 元 是 那些 函数 信和 号 在 它们 的 中 间 东 é 
国之 内 的 网 络 的 神经 元 。 根 据 Rumelhart et 本.(1986a) ， 正 是 反 向 传播 学 习 这 个 特点 导致 它 作 
为 学 习 算 法 的 稳定 性 ， 

2. 双 曲 正 场 函数 。 万 外 一 个 经 常 使 用 的 sigmoid 非 线 性 形式 是 双 昌 正切 函数 ， 它 的 最 通 


(4.34) 


用 的 形式 由 
p,;lo,(n)) = atanh( by,(2)), (a,b) > Ù (4.35) 
ENX, XH a Mb CHR, SRE, WIE ww AIA ML BAY logistic MA, EM 
v Cn AUPE F 
plain) = absech ( bv,(n)) = ab(1 - tanh’ ( bv, (n))) 
= ote = etna a tad) nam 


如 果 神 经 元 j 位 于 输出 层 ， 它 的 局 域 梯度 是 
õn) = e(njgj(u(n)) = Id (n) -o(n)lLa-o(n)ila+o(n)] (4.37) 
如 果 神 经 元 j 位 于 隐藏 层 ， 我 们 有 
s(n) = g, CoCa) 24840) wy Cn) 
(4.38) 


tt 


对 logistic KUE H IR. 33) A434) LY Re ER E Bg ee i A 4.37) (4.38), RNR 


= lan laine etad Son) wyln), 了 为 隐藏 神经 元 
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要 激活 函数 的 具体 信息 就 可 以 计算 局 域 梯度 8 。 
学 习 率 

友 癌 传播 算法 提供 使 用 最 速 下 降 方法 芷 权 空 间 计 算得 到 的 轨迹 的 一 种 近似 。 我 们 使 用 的 
学 习 率 参数 1 越 小 ， 从 一 次 和 迭代 到 下 一 次 和 闪 代 的 网 络 突 触 权 值 的 变化 量 就 越 小 ， 轨 迹 在 权 值 
空间 加 越 旗 消 。 然 而 ， 这 种 改进 是 以 碱 慢 学 习 速 度 为 代价 的 。 叉 一 上 方面， 如 果 我 们 让 妆 的 值 
太太 以 加 快 学 习 速 度 的 话 ， 结 果 就 有 可 能 使 网 络 的 突 触 权 值 的 普 化 量 不 稳定 ( 妈 振 东 )。 一 个 
既 要 加 快 学 习 速 度 又 要 保持 稳定 的 简单 方法 是 修改 式 (4.13) 的 delta 法 则 ， 使 它 包 括 动量 
mpi?! 3875247 (Rumelhart et al. ,1986a) 


Awin) = eAw,(n 1) + 8, (n)y,(n) (4.39) 
Reka B iM, EEES. CR ee Aw, (n) RR 8n) yan) 
Pe. WE 4-6 所 示 ， 其 中 :” 表示 单位 延迟 操作 符 。 式 (4.39) 被 
称 之 为 广义 delta 规则 ; 它 包括 式 (4.13) 的 delta 规则 的 作为 特 a 


殊 情 况 ( 即 a =0)。 

为 了 看 出 由 于 动量 函数 a 在 一 系列 模式 旦 现 上 对 突 触 权 值 
的 影响 ， 我 们 将 式 {4.39) 重 新 写 为 带 下 标 RS, eH Se 
引 ¢ 从 初始 时 刻 0 到 当前 时 刻 n。 式 (4.39) 可 被 视 为 权 值 修正 量 图 4.6 说 明 动量 常 数 a 


Aw, (nJIN—-BEANE. 解 这 个 关于 Aw, na) 的 方程 得 到 FARG = yE 
Aw,(n) = a Paa a)y, l) (4.40) 


这 代表 一 个 长 度 为 n+ 1 的 时 间 序 列 。 从 式 (4.11) 和 (4.14)， 我 们 可 知 8 Cn) y(n) AEF — 98 
(njldw,(n). 因此 我 们 将 方程 (4.4) 重 写 为 等 价 形式 

Aw, (7) 2-4 dye Peres (4.41) 
TATRA., FEE PRA SLE ( Watrous, 1987; Jacobs, 1988) : 

1. 当前 修正 值 Auwi(n) 代 表 指 数 加 权 的 时 间 序 罚 的 和 。 和 谷 使 时 间 序 列 收 黎 ， 动 量 常数 必 
APR HE 0s | a | <1 范围 内 。 当 = 等 于 0 时 ， 反 回 传播 算法 运行 起 来 设 有 动量 。 虽 然 在 实 
际 中 动量 常数 oo 不 大 可 能 是 负 的 ， 但 它 还 是 可 正 可 负 。 

2. SRE t) w Co EERIE P ARRAS. FROM Aw, (n) 在 数量 
增加 ， 所 以 ， 权 和 值 w (n) 被 大 幅度 调整 。 在 反问 传播 算法 中 包含 动量 趋 于 在 稳定 的 下 降 方 向 


上 加 速 下 降 。 
3. et PIE Ct ow, (1) 在 连续 从 代 中 有 相反 的 代数 符号 ， 指 数据 权 和 Aw (n) ERR 


上 减少 ， 所 以 ， 权 值 w, (=) 调 整 不 大 。 在 反 向 传播 算法 中 包含 动量 具有 稳定 符号 正 负 摆 动 方 


pippe 

FLIES RAP, DEAE HHA aR ER AARU, ENAERE 
可 能 会 有 一 些 有 利 的 影响 。 动 量 项 对 于 使 学 习 过 程 不 停止 在 误差 曲 面 上 一 个 浅 层 的 局 部 最 小 
可 能 也 有 益处 。 

FE ih RRS BR Fd BSR ?是 一 个 常数 。 然 而 ， 事 实 上 它 应 该 被 定义 为 
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120 FEE 


ys ERE, AESMA ER. ME, FARA EA mA 
5 Bom BER SARS. KIX — EP BRAINS 2 HEME. 

PETER ae. REE ol fe TK AY Be AY BO] CA FETA A AAR (EAR A 
的 ， 或 者 在 目 适 应 过 程 中 可 能 限制 网 络 中 某 些 权 值 使 其 保持 固定 。 对 于 后 者 ， 误 差 信 号 是 以 
通 凋 的 方 却 通 过 阿 络 反 同 传播 的 ; 然而 ， 固 定 的 突 触 权 值 是 不 重 改 的 。 这 一 点 ， 可 以 简单 通 
TL (SE FS A A EL Sd SR, Se ORE 


Will ARB RITA Se A A 


TERRE NSC, SAE EAT SKE Se RAS ih 
得 到 的 。 像 表面 提 到 过 的 一 样 ， 在 一 个 学 习 过 程 中 整个 训练 集 的 完全 呈现 称 之 为 -个 回合 
(epoch 。 学 习 过 程 是 在 一 个 国人 台 接 一 个 回 台 的 基础 上 进行 直到 网 络 的 突 和 触 权 值 和 误差 水 平稳 定 
下 洲 ， 并 旦 整个 训练 集 上 的 均 方 误差 收 伍 于 某 个 极 小 值 。 从 一 个 回合 到 下 一 个 回合 时 将 训练 样 
本 的 呈现 顺序 随机 化 是 一 个 很 好 的 实践 。 这 种 随机 化 易于 在 学 习 循 环 中 使 得 权 空 间 搜 索 具有 渭 
机 性 ， 因 此 可 以 在 罕 甬 权 值 向 量 演 化 中 避免 极限 环 出 现 的 可 能 性 ; 极限 环 在 第 14 章 讨 论 。 

对 于 一 个 给 年 的 训练 集 ， 反 辐 传 播 学 习 可 能 会 以 下 面 两 种 基本 方式 中 的 一 种 进行 : 

1. 绅 行 方式 。 反 回 忧 播 学 习 的 串 行 方式 也 称 为 是 在 线 方 式 、 模 式 方式 或 随机 方式 。 在 
这 种 运行 方式 里 在 每 个 训练 样本 呈现 之 后 进行 权 什 更新; 这 正 是 导出 目前 反 向 传播 算法 公式 
所 引用 的 运行 方式 。 具 体 地 ， 考 虚 包 合 N 个 训练 例子 (模式 ) 的 一 个 回合 ， 其 顺序 是 (x(1)， 
(1)),…，(xX(N),d(N))。 该 回合 的 第 一 个 例子 对 (x(1),d(1)) 呈 现 给 网 络 时 ， 完 成 以 前 描述 
的 前 向 和 反 向 计算 顺序 ， 导致 网 络 的 突 触 权重 和 偏 置 水 平 的 一 定 调 整 。 接 着 .该 回 台 的 第 二 个 
梓 本 对 (X(t2)，d(2)) 蛙 现时， 重复 前 向 和 上 反 向 的 计算 顺序 ， 导 至 网 络 的 突 触 权 值 种 偏 妮 水 平 的 
进一步 调整 。 直 到 该 回合 的 最 后 一 个 例子 对 (x(N) ,qd(NN)) 考 虚 完 以 后 这 个 过 程 才 结 束 。 

2. 集中 方式 。 在 反 向 传播 学 习 的 集中 方式 中 ， 权 值 更 新 要 在 组 成 一 个 回合 的 所 有 训练 
例子 呈现 后 才 进 行 。 对 于 特定 的 一 个 回合 ， 我 们 将 代价 函数 定义 为 式 (4.2) 和 (4.3} 均 方 误 
差 ， 这 里 重新 写成 组 合 形式 


ma = Me 2 Za Cn) {4,42} 
这 里 误差 信号 tn) 表示 训练 例子 n 由 式 (4.1) 中 所 定义 的 输出 神经 元 } 有 关 的 误差 。 误 差 
lD FF (nn) 和 y(n) 的 差 ， 它们 分 别 表示 期 望 响应 向 量 引 z) 的 第 了 个 分 量 和 网 络 输出 
的 相应 值 。 在 式 44.42) 中 关于 了 的 内 层 求 和 是 对 网 络 的 输出 层 的 所 有 神经 元 进行 的 ， 而 关于 
n 的 外 层 求 和 是 对 当前 回合 的 整个 训练 集 进行 的 。 对 于 学 习 率 参数 n MATMA i 连 楼 到 } 
YY ws PEIEE delta 规则 


Aw, = 





a & 
- 136, = -4 Den 2? (4.43) 


EX. HIAR e (naw, pot 根据 式 (4 43)， 在 集中 方式 
中 ， 权 值 的 校正 值 Aw; 是 在 整个 训练 集 提交 训练 以 后 才 决 定 。 

虑 在 线 运 行 的 观点 来 看 ， 训 练 的 串 行 方式 比 集中 方式 要 好 ， 关 为 对 每 一 个 突 触 权 值 来 说 
怖 有 更 少 的 局 部 和 存储。 而 且 ， 既 然 以 随机 方式 给 定 网 络 的 训练 模式 ， 利 用 一 个 模式 接 一 个 模 
式 的 方法 更 新 权 值 使 得 在 权 值 空间 的 搜索 自然 具有 随机 性 。 这 使 得 反 向 传播 算法 陷 人 局 部 最 
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小 的 可 能 性 降低 本， 

同样 地 ， 溃 行 上 方式 的 随机 性 质 使 得 要 得 到 算法 收 钙 的 型 沦 条 件 变 得 困 准 了 。 比 较 而 言 ， 
训练 集中 方式 的 使 用 为 梯度 向 量 担 供 了 一 个 精确 的 估计 ; 收敛 到 局 部 最 小 只 此 简单 的 条 件 研 
可 以 保证 。 集 中 方式 的 成 分 比 串 行 方式 更 容易 并 行 化 。 

当 训 练 数 据 元 余 时 ( 即 数据 集合 包含 同一 模式 的 几 个 备份 )， 我 们 发 现 不 像 集 中 方式 那 
样 ， 因 为 在 一 次 内 呈现 一 个 例子 ， 从 而 品行 方式 可 以 利用 这 种 元 余 。 当 数据 集 很 大 且 高 度 磺 
余 时 无 其 如 此 。 

总 地 来 说 ， 尽 管 反 问 传 播 学 习 的 串 行 方式 有 一 些 缺 点 ， 但 它 能 够 如 此 流行 (特别 对 解决 
模式 分 类 问题 ) 有 两 个 重要 的 原因 ; 

* 算法 的 实现 很 简单 。 

* 它 为 大 型 问题 和 困难 的 问题 提供 有 效 的 解决 方法 。 


停止 准则 


通 第 ， 不 能 证 明 反 癌 传 播 算 法 收 合 ， 并 且 没 有 明确 定义 的 停止 它 运行 的 准则 。 相 反 ， 公 
有 一 些 合 理 的 准则 ， 它 们 每 个 都 有 自己 的 实际 用 处 ， 这 些 准则 可 以 由 于 终止 权 值 的 调整 。 要 
担 出 这 样 一 个 准则 ， 考 虑 关于 误差 曲面 的 局 部 或 全 局 最 小 的 特 珠 性 质 是 符合 逻辑 的 。 将 权 值 
AB Ww 标记 为 局 部 或 全 局 最 小 点 。 要 使 w 成 为 最 小 点 的 一 个 必要 条 件 是 误差 曲面 对 权 值 
ja) Bt w 的 梯度 向 量 gw) ( 即 一 阶 偏 导数 ) 在 w=w’ 处 等 于 0。 因 此 ， 我 们 可 以 提出 反 向 传播 
学 习 的 一 个 合理 的 收 合 淮 则 (Kramer and Sangiovanni-Vincentelli, 1989) - 


当 梯 度 向 量 的 欧 几 里 礼 范 数 渤 到 一 个 充分 小 的 梯度 阅 秸 时， 认为 反 向 传播 算法 已 经 收效 。 

I PUL EIR, A Re, SB PT AE SIRE. AN PS EBSA E i 
E g(w), 

Fy — PER ATT Fre was Fe Be] A RE ER, ft pea AR ee RES, Cw) TE wew Sb 
平稳 的。 因此 ， 我 们 可 以 建 说 一 个 不 同 的 收敛 准则 ; 

当 每 一 个 回合 的 均 方 误差 的 变化 的 绝对 速率 足够 小 时 ， 试 为 反 向 传播 算法 已 经 站 鼓 。 

HA Ae AE ee BORE SAG EEA SZ OL I ZH, 一般 认为 它 足够 
J, Bitte, B—-PASRSAA DRESS 0.01 这 样 的 值 ， 不 幸 的 是 ， 这 个 准则 可 能 会 
FRF IERRA IE. 

EnS 8 AR AA Be SSE, AETERNE., PERERA 
沁 化 性 能 。 当 深化 性 能 是 适当 的 ,或 汉化 性 能 明显 达到 峰值 时 ， 学 习 过 程 被 终止 . 参看 
4.14 pA ASAT 


44 上 反 向 传播 算法 小 结 


图 4-1 给 出 一 个 多 层 感 知 器 的 结构 布局 。 反 向 传播 学 习 的 相应 的 信号 流 图 ， 包 括 学 习 过 
程 计算 的 前 向 和 上 友 向 阶段 ， 了 =2 和 mn = mi =m, =3 的 情况 在 图 4-7 中 表示 。 信 号 流 图 的 上 
面 一 部 分 是 说 明 前 向 通过 的 。 信 和 号 流 图 的 下 面 一 部 分 是 说 明 反 向 通过 的 ， 这 也 称 为 在 反 向 传 
播 算法 中 计算 局 域 梯度 的 灵敏 图 (sensitivity graph) (Narendra and Parthasarathy , 1990) 。 
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图 4-7 反问 传播 学 习 信 号 流 图 小 年 
图 顶层; 前 向 通过 | FRR: 反 同 通过 


前 面 我 们 提 到 权 值 的 串 行 更 新 是 反 向 传播 算法 的 在 线 实 现 的 更 好 方法 。 对 这 种 方式 运 

， 算 法 通过 训练 样本 1(x(n) ,dn)) ,进行 百 环 如 下 : 

1. 初始 化 。 假 设 没 有 先 验 知识 可 用 ， 我 们 以 一 个 随机 分 布 随 机 地 挑选 突 触 权 值 和 国 值 ， 
这 个 分 布 选 择 为 均值 等 于 0 的 均匀 分 布 ， 它 的 方差 的 选择 应 该 使 得 神经 元 的 请 导 局 部 域 的 标 
准 偏差 位 于 sigmoid 激活 函数 的 线形 部 分 与 他 和 部 分 过 小 处 。 

2. 训练 样本 的 呈现 。 呈 现 训练 样本 的 一 个 回合 给 网络 。 对 训练 集中 以 茶 种 形式 排序 的 
每 个 样本 ， 依 次 进行 在 下 面 的 第 3 点 和 第 4 点 中 所 描述 的 前 向 和 反问 计算 。 

3. 前 向 计算 。 在 该 回合 中 设 一 个 训练 样本 是 (xtn),d(n))， 输 入 向 量 x(n) fa BRAD 
点 的 输入 层 和 期 望 响 应 向 量 d(n) 指 向 计算 节点 的 输出 层 。 不 断 地 经 由 网 络 一 层 一 层 地 前 进 ， 
可 以 计算 网 络 的 诱 民 局 部 域 和 范 数 信和 导 。 在 层 了 的 神经 元 的 诱导 局 部 域 w (nm ) 为 


o (n Ta S wi? Cn yy en (4. 44) 


这 里 yi (nE n 时 前 面 第 1 -1 层 的 神经 元 i oH RAS, itt wi? (n) EAB 
1 - 1 层 的 神经 元 isms) Rae, 的 权 值 。 对 i =0, 我 们 有 ylin) +1, FA 
wy Cn) = 58;" (nn) 是 第 1 屋 的 神经 元 i 的 偏 置 。 假 设 使 用 一 个 sigmoid HX, WER 1 屋 的 神经 
元 i 的 输出 信和 号 是 
y? = pv (nn)) 
如 果 神 经 元 j 是 在 第 一 隆 藏 层 ( 即 ! = 1)， 置 


y(n) = x(n) 
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这 里 xi az) 是 输入 向 量 x(n) 的 第 个 元 素 。 如 果 神 经 元 j 在 输出 层 ( 即 上 = 工 ， 这 里 的 工 称 为 
网 络 的 深度 }， 令 | 


ye’ = o,(n) 


计算 误差 信号 
eta) = d(n) — oln) (4.45) 
这 里 dj tn) 是 期 望 响应 癌 基 dtn) 的 第 j 个 向 量 。 
4. 有 反 向 计算 。 计 算 网 络 的 六 即 局 域 梯度 ), 定义 为 
e” (nde, (vi (n)) 对 输出 层 上 的 神经 元 j 


(E) 7 
=| al Cad) SEB Cade (a) 对 隐藏 车 的 神经 元 | e 


这 里 Y)() 是 措 对 日 变量 的 微分 。 根 据 广 义 delta 规则 调节 网 络 第 2 RASS A 
we Cn +1) = wi (Cn) + al we Cr = pes Wi’? Cady? Cn} (4.47) 
这 里 y AEDRBM, a 为 动量 常数 。 
5. 适 代 。 通 过 呈现 新 的 一 回合 样本 给 网 络 根据 第 3 点 和 第 4 点 进行 前 向 和 反问 迭代 计 
算 ， 下 到 满足 个 止 准 则 。 
注意 : 训练 样本 的 呈现 顺序 从 一 个 回合 到 田 一 个 回合 必须 是 随机 的 。 动 量 和 学 沁 率 参数 
随 者 训练 达 代 次 数 的 增加 而 调整 ( 通 第 是 减少 的 )，。 以 后 会 纵 出 这 些 点 的 理由 。 


4.5 异 或 问题 


一 个 基本 的 ( 单 层 ) 感 知 器 没有 隐 攻 神经 元 。 因 此 ， 姜 不 能 对 非 线性 可 分 的 输入 模式 分 
类 。 然 而 ， 非 线性 是 分 模式 却 是 很 普 误 的 。 人 例如， 对 并 或 (XOR) 问 题 就 记 到 这 种 情形 ， 它 可 
以 看 作 在 单位 契 立 方 体 中 更 一 般 的 点 分 类 问题 的 特例 。 在 超 立 上 方 体 中 的 每 个 点 不 是 属于 类 0 
就 是 属于 类 L 但 是 对 异 或 问题 特殊 情形 ， 我 们 仪 考虑 单位 江 方 形 的 四 个 衣 ， 相 应 的 输入 柑 
式 为 (0,0 ),(0,1 ,1,0 ) 和 (1,1)。 第 一 个 和 第 三 个 输入 模式 属于 类 0， 即 

O@0=0 
和 1 由 1 =0 

这 里 出 指 的 是 异 或 布尔 晃 数 运算 符 。 输 入 模式 40,0) 和 (tl,1) 是 单位 正方 形 的 两 个 相对 的 
角 ， 但 它们 产生 相 独 的 结果 是 0。 另 一 方面 ， 输 人 模式 (0,1) 和 (1,0) 是 单位 正方 形 的 另 一 对 
相对 的 角 ， 但 是 它们 属于 类 1, B 

O@Mi=1 
Al 140 = 1 

KARAER A a A 2 a 22 oe Bl eR A ee a A a AY -条 直线 。 
在 这 条 直线 的 一 边 的 所 有 的 点 ， 神 经 元 输出 1; 而 在 这 条 下 线 的 另 一 边 的 点 ， 神 经 元 竹 出 0。 
在 输入 空间 中 这 条 直线 的 位 置 和 方向 由 与 两 个 输入 节点 相连 的 神经 元 的 突 触 权 值 和 蕊 的 偏 置 
决定 。 由 于 输入 模式 (0,0) 和 (1,1) 是 位 于 单位 正方 形 的 相对 的 两 个 角 ， 输 入 模式 {0,1) 和 和 
(1 ,0) 也 一 样 ， 很 清楚 我 们 作 不 出 这 样 一 条 直 谎 作 次 决策 边界 可 以 使 (0,0) 和 (1,1) 在 一 个 区 
域 ， 而 (1,0) 和 (0,1) 在 另 一 区 域 。 换 血 话 说 ,一 个 简单 感知 器 不 能 解决 KOR 问题 。 

如 图 4- 8a 中 所 示 ， 我 们 可 以 使 用 一 层 有 两 个 神经 元 的 隐藏 层 米 解 决 寞 或 问题 (Touretzky 
and Pomerleau ,1989)。 网 络 的 信号 流 图 在 图 4-8 bho REBELDE RE: 
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图 4-8 





ai 解决 KOR fh aA Se SFA) Se o i E 


* 每 一 个 神经 CAR — Th MeCulloch- Pitts 29 K 
ay, (EFARMA RARE A ERMAR. 
© 比特 符号 0 和 1 分 别 由 水 平 9 和 +1 Ro 


隐藏 层 中 顶部 神经 元 标记 为 1， 定义 为 
W= Wy =+] 
3 
b=- pj 


该 隐藏 神经 元 构造 的 决策 边界 的 斜率 等 于 - 1， 在 图 
4.9a 给 出 其 位 置 。 在 隐藏 层 中 底部 神经 元 标记 为 2， 年 
MA 

Wy = Wy = + l 


b= - 7 


See eaa ee A Sd PB] A fi EE 4-9 
oe tH 
图 4-80 的 标记 为 3 的 输出 神经 元 定义 为 
Wy = — 2 


by =- > 


Bey Hh a 8 CR) I E ENI A SS HB ER IA 
界 构造 线性 组 合 。 这 个 计算 结果 表示 在 图 49c Po M 
部 隐藏 神经 元 由 一 个 兴奋 ( 正 ) 连 接 到 输出 神经 元 ， 而 
顶部 隐藏 神经 元 由 一 个 更 强 的 抑制 ( 负 ) 连 接 到 输出 伸 
经 元 。 当 两 个 隐藏 神经 元 都 断 开 时 ,这 种 情况 当 输 人 
信号 是 (0,0) 时 发 生 ， 输 出 神经 元 保持 断 开 。 当 两 个 隐 
藏 神经 元 都 接 通 时 ， 这 种 情况 当 输 入 模式 是 (1,1) 时 友 
生 ， 输 出 神经 元 也 保持 断 开 ， 内 为 由 连 向 巴 部 幅 藏 神 
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图 4-9 
4 在 图 48 FSS Ba eo 1! 所 构 
造 的 决策 迪 界 ”bi 网络 隐藏 神经 元 2 所 
HEREDA ST SP 
pe He 


E Bi de FB 125 


— ee ee 





28 To TA ARM RL Po AE BY itll ec ee ae EV JS 2B a SE PE ee, MUTA ee 
神经 元 是 断 开 的 而 底部 隐藏 神经 元 是 接 遂 的 ， 即 输 人 模式 是 40,1) 或 01 .0 时 ， 输 出 神经 元 旺 
接 通 的 ， 央 为 止 的 权 值 连 向 了 底部 隐藏 神经 元 。 因 此 图 4-8a 确实 解决 了 异 或 问题 . 


4.6 改善 反思 传播 算法 性 能 的 试探 法 


入 们 第 说 ， 用 于 上 扩 问 传播 算法 的 神经 网 络 的 设计 与 其 说 是 科学 ， 不 如 说 更 像 一 门 艺术 ， 
因为 这 个 设计 中 的 很 多 数值 因素 依赖 于 个 入 自己 的 经 验 。 从 某 种 意义 上 讲 这 个 论断 是 正确 
的 。 介 是 ， 也 有些 方法 能 对 及 问 传 播 算法 有 重大 提高 ， 订 描述 如 下 : 

L 只 行 更新 而 椒 是 集中 方式 更 新 。 如 前 面 已 经 提 到 过 的 ， 及 向 传播 学 习 的 中 行 方式 (小 
及 一 个 模式 按 一 个 模式 的 更 新 ) 要 比 集中 方式 的 计算 快 。 特 别 当 训练 数据 集 很 大 且 高 度 多 余 
HY, Esile. (高度 克 余 的 数据 对 集中 方式 更 新 所 沉 要 的 Jacobi 矩阵 的 估计 提出 了 计算 
时 问 题 :， 

2. 最 天 可 能 的 信息 内 容 。 作 为 -- 个 基本 的 规则 ， 对 呈现 给 反 疝 传播 算法 的 每 一 个 训练 
样本 的 挑选 必须 建立 在 其 信息 内 容 对 解决 问题 有 最 大 可 能 的 基础 上 (LeCun,1993)。 达 到 这 个 
Hani APY Pe Ze 

” 使 用 训练 误差 最 大 的 样本 。 

。 使 用 的 样本 要 与 以 前 使 用 的 有 根本 区 别 。 

这 两 个 试探 方法 起 因 于 对 权 空 间 进 行 更 多 搜索 的 永 望 。 

在 模式 分 类 的 任务 中 使 用 串 行 反 向 传播 学 习 ， 经 常 使 用 的 一 个 简单 技巧 是 将 样本 每 个 回 
合 呈 现 给 多 层 感 郑 器 的 顺序 随机 化 ( 即 弄 配 )， 理想 情况 下 ， 随 机 化 可 以 确保 一 个 回合 中 的 相 
继 的 样 市 很 少 属于 同 -类 。 

对 于 一 个 更 加 改 恨 的 技巧 ， 我 们 使 用 强调 图 表 ， 这 涉及 呈现 给 网 络 更 加 困难 的 模式 而 不 
万 和 容 急 的 横 趟 。 一 个 特定 的 模式 是 容易 还 是 朵 难 可 以 通过 检查 其 产生 的 误差 与 算法 以 前 和 迭代 
所 产 牛 的 医 考 进行 比较 来 确认 。 然 而 ， 在 使 用 强调 图 表 时 有 两 个 问题 需要 仔细 注意 ; 

”一 个 回合 中 星 声 给 网 络 的 样本 分 布 是 变形 的 。 

© 例外 点 或 基 错 误 标 记 的 样本 的 出 声 对 于 算法 的 性 能 会 有 一 个 灾难 性 的 后 果 ; 学 习 这 

性 的 例外 点 对 网 络 在 输入 空间 中 更 大 可 能 区 域 的 涝 化 能 力 带 来 损害 。 

3. 激活 遇 数 。 一 般 来 说 ， 当 网 络 的 神经 元 模型 棋 人 的 sigmoid 激活 PA ZUE fe RPK mi AS LE 
非 对 称 时 ， 一 个 用 反问 传播 算法 训练 的 多 层 感 知 器 会 学 得 快 一 些 ; 详细 内 容 请 看 4.11 节 。 
当 一 个 激活 函数 ov i FE RAF 

el- r) == plr) 
我 们 也 它 是 区 对 称 的 ( 即 为 它 的 目 变 量 的 奇 函 数 )， 见 图 4-10a。 在 图 4-10b 的 标准 logistic pK 
ONT AL ASE AF 
FT RAT FR PER BY — “PSE FF BY A FFE PTE DY sigmoid 型 非 线性 性 ， 即 
ole) = atanh( dv) 
EP a, b BRM. AW a, b fH (LeCun, 1989, 1993) 
a= 1.7159 


2 
b= 3 
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一 在 三 —1.7159 


a) 


Wt) 


0 t 
b) 


图 410 
al RO PRR DAES PRE 


TE RE AII NE ARCE u FA ARTER : 
* ol) =1 4 gl -1)=-1, 
. 在 原点 激活 函数 的 倾斜 度 { 妈 有效 增益 ) 接 近 于 1， 如 下 所 示 : 
(0) = ab = 1.7159 x 2/3 = 1,1424 
* 和 0 的 一 阶 寻 数 在 = 工时 达到 最 大 。 


4. 目标 值 。 在 sigmoid 激活 函数 的 范围 内 选择 是 标 值 (期 望 响应 ) 是 很 重要 的 。 竺 别 地 ， 
多 层 感 知 占 的 输出 层 的 神经 元 ; 的 期 望 响应 d, 必须 被 与 sigmoid 激活 函数 的 极限 值 偏离 某 个 s 
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fo SW GfK EM SB AAA SE ae eS A Bl PA nT a 
AFE. ARH, RAS 4- toa PREIRO PRA Pa. 对 于 极限 值 + a， 我 们 令 


d= a—& 











ae d 








‘a! SS 





FERA- a， 我 们 令 
d, =- a+E 

这 里 s 是 一 个 合 近 的 正常 数 。 对 前 面 选 搓 的 a = 1.7159， 可 以 今 e=0,7159， 这 样 ， 目 标 值 可 
以 方便 地 选 为 二 1， 见 图 4- 10a。 

5. 输入 规整 第， 每 -个 不 同 的 输入 蛮 量 都 帝 要 预 处 理 ， 合 得 它 关 于 整个 训练 集 求 平均 
的 均值 接近 0， 或 者 与 标准 偏差 相 比 是 比较 小 的 (LeCcun ,1993 )。 为 评价 这 个 规则 的 实际 意 
浆 ， 雹 们 考 感 当 办 人 恒 正 时 的 极端 情况 。 在 这 种 情况 下 ， 第 一 隆 藏 层 的 一 个 神经 元 的 所 有 帘 
乔 权 值 只 能 同时 增加 或 同时 减少 。 所 以 ， 如 果 这 个 神经 元 权 值 向 量 改变 访 向 ， 则 它 的 误差 曲 
YA te Se a A, XU OR oS, AI BOR. 

EMES ERA., ARRAS Lhasa Pe. 

© 训练 集 包 含 的 输入 变量 应 该 不 相关 的 ; 这 可 以 通过 第 8 章 提 到 的 主 分 量 分 析 法 来 做 

到 。 
” 去 相关 后 的 输入 变量 应 调整 其 长 度 使 得 它们 的 协 方 益 近似 相等 ， 因 此 可 以 保证 网 络 
中 的 不 同 突 触 权 值 以 夫 约 相等 的 速度 进行 学 习 。 

图 4-11 训 明 依次 执行 规整 化 三 个 步骤 的 结果 : 消除 均值 ， 去 相关 性 ， 以 及 协 方差 均衡 。 

6. 艺 始 化 。 网 络 的 帘 触 权 值 和 交 值 初 值 的 一 个 较 好 的 选择 对 一 个 成 功 的 网 络 设计 会 有 
巨大 的 帮助 。 关 键 问 题 是 : 什么 是 好 的 选择 ? 

当 突 触 权 值 被 同 予 一 个 较 大 的 初始 值 ， 屠 么 网 络 的 神经 元 很 可 能 会 趋 于 饱 种 。 如 果 发 生 
这 种 情况 ， 上 反问 传播 算法 中 的 局 域 梯 度 呈 现 出 一 个 很 小 的 值 ， 结 果 导 致 反 向 传播 学 习 过 程 很 
绥 惕 。 然 向 ， 如 果 突 触 权 值 被 赋 子 一 个 较 小 的 初始 值 ， 反 向 传播 算法 可 能 就 在 误差 曲面 的 原 
思 的 一 个 非常 平 绥 的 区 域内 进行 ， 特别 对 于 反对 称 函 数 { 如 双 曲 正切 函数 } 的 条 件 下 ， 这 种 可 L182 
让 性 就 中 大 。 不幸 地 是 ， 这 个 原点 是 一 个 著 点 ， 这 个 鞍点 是 一 个 稳定 点 ， 在 该 点 人 处 与 马鞍 下 
次 的 误差 曲面 的 曲率 为 正 ， 而 洛 着 马鞍 方向 为 负 。 由 于 这 些 原因 ， 使 用 过 大 或 过 小 值 初始 全 
完 船 权 便 都 应 该 避免 。 人 恰当 的 初始 化 选择 位 于 这 两 种 极端 之 间 . 

具 悼 地， 考虑 将 一 个 双 曲 正切 醒 数 作为 激 藻 苑 数 的 多 层 感知 器 。 设 网 络 的 每 一 个 神经 元 
WEA O0 我 们 将 神经 元 i 的 诱导 局 部 域 表 示 为 


UF = D wY, 
假设 网 络 的 每 一 个 神经 元 的 输入 的 均值 为 0 方差 为 1， 表 示 为 
uw = Ely] = 0 ”对 所 有 神经 元 i 
和 
o = El{ty -p Y] = Ely]=1 对 所 有 神经 元 i 
进一步 ,假设 输入 值 痢 是 不 相关 的 ， 即 
l,k =i 


Elyn] = {op 
FLA AAA CEL ELEVA O 的 均匀 分 布 抽取 的 一 组 数 
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图 4-41 CRAS ENAERE SHR RA ee Bas 
By = E| w] = 0 MP4 7. i xf 


和 和 方差 
de = E (m; -pY ] = Elw] ”对 所 有 (j,i) 对 
因此 我 们 可 以 将 诱导 局 部 域 w 的 均值 和 方差 表示 为 


m = Ely, | = EL Duy] = D Eim Ely = 0 


È= Eilv -u ] = Ev] = ELD Sw wary] 


>} > El won | EL YY | = > Ela = mo, 
这 里 mE 元 的 突 触 连接 的 数目 


(4.48) 


RIERA, REI a E RE RA CR, ERS ES BR ik 
的 标准 帆 差 位 于 它 的 sigmoid 激活 函数 的 线性 部 分 和 饱和 部 分 的 过 滤 区 域 。 例 如 ， 如 前 所 述 
的 参数 a 和 8 所 设 值 的 双 曲 正 所 站 数 ， 当 式 (4.48) 中 的 o, = 工时 可 以 满足 这 个 目标 ， 这 样 我 
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们 得 到 

og, = Mm" (4.49) 
Auk. AFA., EARRAN OU Sec RAET N A RR E, 
MA T A Aar HE OEE E AA BAY {A 。 

7. 从 提示 中 学 习 . 从 一 组 林 知 的 训练 例子 中 学 习 意 味 着 处 理 木 知 的 输入 — fy BT eR 
ef), Bb, SUP A RIP RASA BREE NIE, A 
中 学 : 习 的 过 程 可 以 推广 为 包括 从 提示 中 学 习 ， 这 可 以 由 在 学 习 过 程 中 允许 包括 我 们 已 有 的 关 
FAR 1 ) 的 先 验 知识 来 实现 (Abu_Mostafa,1995 )。 这 些 知识 包括 不 变性 、 对 称 性 或 大 于 吵 
数 fC OPER, “EXTERIORS se, MHE RERNE, SHS 
最 后 估计 的 质量 。 式 (4.49) 的 使 用 就 是 怎样 取得 这 一 点 的 例子 。 

8. 学 习 率 。 多 层 感 知 货 的 所 有 神经 元 理论 上 应 以 同一 速率 进行 学 习 。 阅 络 的 最 后 一 层 
AY) a ep EE as ECA. Ait, Ree URES yA Meh. AIRS 
人 的 神经 无 的 学 习 率 参数 应 比 输入 较 少 的 神经 元 小 。 在 LeCun(1993) 中 提 到 对 一 个 给 定 的 神 
经 元 ， 其 学 习 举 应 与 该 昼 经 元 的 突 触 连接 的 平方 根 成 反比 。 关 于 学 习 亩 我 们 将 在 4.17 节 中 
作 昌 多 的 讨论 。 


4.7 输出 表示 和 决策 规则 
理论 上 , 一 个 上 开 类 分 类 问题 中 对 闻 个 不 同类 的 并 组 成 整个 输入 空间 ， 我 们 需要 WW 个 输 


出 表示 所 有 可 能 的 分 类 决策 ， 如 图 4- 12 所 描绘 。 在 这 Mj 
个 图 中 ， 向 量 % He RSS IAN m 维 随机 向 量 emp seman Oe 
Ww j Wa 


x Aas 7 TURALCED, PEAR) x 可 以 属于 的 MS 


H RBS k RA, Ay, RDI T x, 的 网 络 Al4-12 ”模式 分 类 的 方 框 赂 
的 第 天 个 输出 神经 元 的 输出 ， 表 示 如 下 
yi; = F(X ), ka Leese MH (4.50) 


这 里 阅 数 FC: cE MRM A BGS k RO RT. Ae EE, S 
¥ = [yya yag] = [F Og), Fa). Fala]? = Fox) (4.51) 
这 里 FC) TRAKA, TER PRIRA RR-A Be 


在 一 个 多 屋 感 知 器 被 训练 后 ， 用 于 分 类 网 络 MAR LH BARRA MEH? 
很 清楚 ， 任 何 合理 的 决策 规则 都 应 该 建立 在 下 述 向 量 值 函数 的 基础 上 : 


F:3" Dx>yc R” (4.52) 
一 般 来 说 ， 关 于 向 量 值 尚 数 确 定 的 一 点 是 它 是 一 个 连续 明 数 并 使 经 验 风险 汉 好 最小: 
R = oh > ld, - F(x.) ||? (4.53) 


这 里 d 是 原型 x WAC A ESR, |- 是 所 含 向 量 的 欧 儿 里 德 范 数 ， 是 输 人 网 
络 进行 训练 的 样本 数目 。 式 (4.53) 淮 则 的 本 质 与 式 (4.3) 的 代价 函数 一 致 。 向 量 值 函数 F( - ) 
强烈 依赖 于 用 子 网 络 训练 的 例子 (x ,d )， 因 此 不 同 的 (x ,d ) 值 会 导致 不 同 的 向 量 值 函 数 
F( .)。 注 意 ， 这 里 用 到 的 (x ,d,) 术 语 和 前 面 用 到 的 (x()) ,a(j)) 相 间 。 

假设 现在 用 二 值 目标 值 来 训练 网 络 ( 当 网 络 使 用 logistic 函数 时 它 恰巧 对 应 于 网 络 输出 的 
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SR ADP BRD, ADEA 
| 原型 X; ETAG, (4.54) 
0 原型 A, HATXE, 

EF FEW, 6, ETPA M Ah Se 

Q 

1 | 一 第 个 元 素 

$ 
ey — A RREA aHa Gi DARRER (SP I & Be ee GP BR 
一 种 写 有 吸引 力 的 假设 是 该 多 层 感 知 分 类 器 可 能 得 到 固有 的 后 验 类 概率 的 一 个 渐进 近似 。 这 


oo 1989a; Richard and Lippmann, 1991): 
© 利用 天数 定 律 证 明 当 训练 集 的 大 小 N 趋 于 无 穷 大 时 ， 最 小 化 式 (4.53) 中 代价 泛 函 五 


的 权 值 问 量 w 趋 于 使 随机 量 广 | d-F(w,x) | 的 期 望 最 小 的 最 优 权 值 疝 量 w, H 


P da Aen iy le, Fow x) RAD x Rais v 的 多 层 感 知 器 所 实现 的 
INT {AC White, 1989a ), PRA F(w,.x) 明 确 表 示 对 权 值 向 量 w 的 依赖 ， 就 是 前 而 说 的 
F(x). 
” 最 优 权 值 辐 量 w 使 得 网 络 实际 输出 F(w" ,xj)， 是 给 定 输 人 向 量 x 期 望 响 应 向 量 的 
条 件 期 望 的 均 方 误差 最 小 的 估计 值 (White,1989a )。 这 在 第 2 章 已 经 讨论 过 了 。 
对 于 1 对 计 的 模式 分 类 问题 ,如 果 输 入 癌 量 x% 属于 %,， 则 期 望 响 应 向 量 的 第 下 个 元 
RSP 1， 其 他 分 量 为 0， 因 此 对 于 给 定 的 x， 期 望 响 应 问 量 的 条 件 期 望 等 于 后 验 类 
HOE PCS, | x), k=1, 2, =, M(Richard and Lippmann, 1991 ), 
FA] Bi TE HY) se A OR SE A A ie EPR A BA RR, WAARA 
RAS CSA logistic PRAEZR TELE) A RRS FERRER, BOURSES. 
具体 地 ， 我 们 可 以 说 一 个 适当 的 输出 决策 规则 是 由 后 验 概率 估计 产生 的 (近似 )Bayes 规则 | 


w F,(x) > E(x), 对 所 有 jk (4.55) 
将 随机 向 量 xX 分 类 为 包 ,， 这 里 FRO FOATA AERA aE.: 
F(x) 
F 
F(x) = — 
Fy (x) 


当 恩 有 的 后 验 分 类 分 布 互 不 相同 时 ， 以 概率 1 存在 惟一 的 最 大 输出 值 。( 这 里 假设 使 用 无 跟 
精度 计算 ; 有 限 精 度 时 才 可 能 出 现 多 于 一 个 最 大 值 的 情形 ,) 决 策 规则 的 优点 是 比 基 于 输出 
AAK 概 您 选择 类 属 关 系 的 常用 "特别 "法 则 提供 了 一 个 更 明确 的 决策 。 这 里 常用 “特别 "规则 
是 指 如 有 果 相 应 输出 值 比 男 定 的 阅 值 大 (对 logistie 彤 的 激活 郴 数 常 用 0.5)， 向 量 X 是 赋值 给 特 
定 的 类 属 关 系 ， 这 会 导致 多 重 类 赋值 。 
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在 4.6 FIR Sk (4.30) Hy) logistic PRA TAM A E A ei 0, 1] A Pb AY e 进 
行 抗 动 后 作为 实际 度量 伍 ， 这 样 可 以 在 网 络 的 训练 中 避免 罕 触 权 值 的 饱和 (由 于 有 限 的 数值 
RE). FART, AE RETOR, MA FP, OR EAA M 
天 的 一 个 后 瞪 概 座 PCG, | x)(Hampsire and Pearlmutter, 1990), A PCS, | x) BR FERRY BIA 
Xle, 1 -el, 使 得 PCS, | 到 =0 对 应 输出 e， 而 PCS, | x) = 1 对 应 1-e。 由 于 这 个 线性 映 
射 保 持 相 对 的 顺序 ， 它 并 不 影响 应 用 式 (4.55) 的 桨 策 规则 的 结果 。 

同样 有 趣 的 是 ， 妆 一 个 决策 边界 由 一 个 多 层 感知 器 的 输出 经 过 一 些 固定 阅 香 判断 形成 
时 ， 次 策 边 界 的 所 有 形状 儿 方 加 可 以 试探 地 (对 一 个 隐藏 层 的 情形 ) 用 相应 的 隐藏 神经 元 的 数 
日 和 与 之 连接 的 突 触 权 值 的 比 来 解释 (Lui, 1990 )。 然 而 ， 这 样 的 分 析 不 能 应 用 于 根据 式 
14.55) 的 葡 出 疾 荣 规则 形成 的 决策 边界 。 -个 更 合适 的 处 理 是 将 隐藏 层 神经 元 当成 非 线性 特 
IE Mir, EA RIRA z Re (这 里 类 之 问 可 能 并 不 是 线性 可 分 的 ) 腕 射 为 在 隐藏 层 激 活 
辅 出 的 空间 ， 此 处 它们 更 有 可 能 是 线性 可 分 的 。 


4.8 计算 机 实验 


住 这 一 节 我 们 用 计算 机 实验 来 说 明 多 层 感 知 器 作为 模式 分 类 器 的 学 习 行 为 。 实 验 的 目标 
Fe TK BP SS EE EY AE Gauss 分 布 模式 (标号 为 1 A2). ME AC, 分 别 表示 随机 向 量 x 属 
于 模式 , | 和 2 的 事件 集合 。 然 后 ,我 们 可 以 分 别 表示 这 两 类 的 条 件 概 率 密度 函数 : 


KG: fall) = Faep( -za lx- 1?) (4.56) 
HF, p -HAE -=-[0, 017, -72-1 

| E z 2 
wG.: fx) zel - 30 | x- p | | (4.57) 


其 中 , wm, =[2, 0], a =4 
假设 这 两 类 是 等 概率 的 ， 即 


l 
Po 


图 4- 13a 分 别 表示 了 式 (4.56) 和 {4.57) 两 类 Gauss 分 布 的 三 维 图 。 输 入 向 量 是 = Taan], 
HAS EERE m = 2, Æ 4-14 是 类 1 和 类 2 的 各 自 的 散布 图 和 它们 的 联合 散布 图 ， 
图 中 分 别 从 两 个 过 程 中 选取 了 500 个 点 。 后 一 个 图 清楚 地 表示 两 种 分 布 的 重 普 ， 这 表明 无 可 
导 亿 会 有 明显 的 分 类 错 树 概率 . 


Bayesian 决策 边界 


最 优 分 类 的 Bayes 准则 在 第 3 童 中 已 经 讨论 过 了 。 假 设 那 是 一 个 两 类 问题 ，(1) 类 %, 和 
A, 等 概率 ，(2) 正 确 分 类 的 代价 为 0，[3) 错 误 分 类 的 代价 是 相等 的 ， 我 们 发 现 最 优 决策 边 
者 是 利用 似 然 比 检验 : 

é 
A(x) EE (4.58) 
€ 


这 里 和 (xX) 是 似 然 比 ， 定 义 为 
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图 4-13 
JETE AA (6, ) DREES ixl) 


falx |6) 


AGO = FG) 


CER ATR LA, FE LY 


对 考点 的 例子 ， 我 们 有 


o j 3 l 2 
ACx) = Žep -zg lx- l t37 dx- 


定义 ， 


2 l Al l 2 
go-z x — | ag bx te?) = 3 
Ay ee Ore WOW 


i oe eee ee [于 
alx- wm! pix wil = 4log a 


科 用 简单 的 和 运算， 可 以 将 式 (4.61) 简 化 为 


这 里 


x-x | ”=r 


2 2 
SH - 马帮 


了 a 
J, 一 Gy 
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(4,59) 


(4.60) 


(4.61) 


(4,63) 


(4,63) 





— << “= 





= 
= 
图 4-14 
aE WERE bbae, RA cE) AEG, 的 总 体 散布 图 
oo; [lw -e ll’ a 
2o 199 | Tl Pi — Gz 
t 三 E o E + 4logl 5, | (4.64) 


ALODE x 为 图 心 和 7 为 半径 的 一 个 阅 。 令 O 定义 为 这 个 圆 内 的 区 域 。 对 当前 问题 
Bayes 分 炎 规 旭 可 陈述 如 下 : 


RMRI ACK) FOBT E A, MAP eS TREE, SUM MPKARE,, 
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T0 


L — — a 
= x See ee = ç 


一 2/3 


， | ， 其 半径 为 + 





对 于 这 个 实验 的 特殊 参数 ,我 们 有 圆 形 决 策 边 界 ， 其 圆心 位 于 x, = 
2.34, 
Fic KRAEMER Ec 表示 错误 分 类 结果 的 集合 。 根 据 Bayes 决策 规则 运 
条 的 分 类 芋 错 误 { 错 误 分 类 }) BEAK P, 是 
P, = p,Ple | ) + p,Ple | €,) (4.65) 
XH PLe1%,) 是 给 定 分 类 输入 向 量 来 自 于 类 %&, 时 的 错误 分 类 的 条 件 概率 ，P(e |€, ) 类 似 ;， p 
Al py THAR, FC, 的 先 验 概率 .。 对 于 我 们 的 问题 ， 可 以 从 数值 上 和 舍 计 概率 积分 ， 得 到 
Ple | €,) ~ 0.1056 
P(e! €) = 0.2642 
MAW pp =p, 21/2, ASR RSE 
P. ~ 0.1849 
寺 价 地 ， 正 确 分 类 的 概率 为 
P, = i- P, ~ 0.815! 


最 优 多 层 感 知 器 的 实验 确定 


表 4-1 别 出 多 层 感 知 器 的 各 种 可 变 参 数 ， 和 包括 一 个 单 层 隐 藏 神经 元 ,， 它 是 用 反 向 传播 算 
法 以 串 行 方式 训练 的 。 因 为 模式 分 类 的 最 终日 标 是 达到 可 接受 的 正确 分 类 率 ， 这 个 准则 用 于 
判断 何 时 MLP( 用 作 一 个 模式 分 类 器 ) 的 各 种 可 变 参 数 是 最 优 的 。 


表 4-1 SERA SSR 





Eo 23 x Oo O3 典 增 变 化 范围 
隐藏 神经 元 数目 Qo) 
73 RE 7 (D, 1) 
Att et ay RY y (Oo, 1} 





隐藏 神经 元 的 最 优 数目 ”在 实际 处 理 时 对 于 决定 隐藏 神经 元 的 最 优 数目 m 的 问题 ， 利 
用 的 准则 是 能 够 产生 与 Bayes 分 类 器 性 能 “接近 ”( 通常 差 1 多 ) 的 隐藏 层 神 经 元 的 最 小 数 旧 作 
为 最 优 隐藏 昼 经 元 数目 ， 因此， 实验 研究 开始 于 两 个 隐藏 层 神经 元 作为 起 始点 ， 模 拟 结果 列 
ER 4-2 中 。 因 为 第 一 组 模拟 的 功能 是 仅仅 确定 两 个 隐藏 层 神 经 元 是 硅 足 够 ， 学 习 率 参数 
和 动量 常数 敏 赋予 任意 平常 的 值 。 在 每 一 个 模拟 过 程 进行 时 ， 对 类 @ MES, 以 相同 的 概 
率 随机 产生 Gauss 分 布 训练 例子 ， 它 们 通过 网 络 重 复 循 环 ， 每 一 个 网 络 循环 代表 -一 个 回合 。 
四 合 的 数目 的 选择 是 要 使 每 次 运行 的 训练 例子 总 数 为 一 个 常数 。 这 样 做 ， 出 于 训练 集 天 小 的 
变化 而 产生 的 潜在 影响 就 平均 掉 了 。 

表 4-2 两 个 隐 若 神经 元 的 模拟 结果 * 


运行 号 HR H HERH JI TIRE ERTELE P, 
| 500 320 0.2375 80.36% 
2 2000 80 0.2341 80.33% 
3 8000 20 0.2244 40.47% 





* FIR 520.1 和 动量 w= 0。 
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4-2 AP RE, SA eS AE PAR (4.53) ee RC TT EY. BAT HR a EI 
He PATE REMY DUE E SE — Pid, ISAAA ee Fe PE bh a ZA 
能 力 ( 即 对 从 来 没有 遇 到 的 数据 有 好 的 性 能 )。 

仁 用 高 个 模式 训练 网 络 收 航 以 局 ， 正 确 分 类 的 概 谤 理论 上 可 以 计算 如 下 : 

Pic, N) = p Ple, NE €,) + pyPlcyh | €) (4 66) 
1X Bop, = pp = 1/2, H 


P(e,N 1 €,) = | cle Oe 6 ) dx (4,67) 


P(e, NI €) =1- A | 8, ) dx (4.68) 


而 OQ, CN) eR Rs [is] EX Be, PIT AY o E x CABAL [ey] OK OY - - SE) RS 
CHAN TRAUT VAP ESP SSE, | ok a FER AC, TEE SO eR, 
PITE FEN (4. 55) Sag ce A gat BT AER ake PR, SEA, Ple, NIG AIP Ce, NIE ) 
的 数值 信 计 是 一 个 问题 ， 因 为 描述 决策 域名 (和) 的 封闭 形式 的 表达 式 计 不 容易 找到 。 

因此 ， 我 们 转调 求助 于 实验 逼近 ， 涉 及 对 训练 后 的 多 层 感知 器 检验 另外 的 独立 例子 集 ， 
OEE fh Pe the AEC, 和 类 所 , 的 分 布 中 随机 抽取 的 。 令 4 为 随机 变量 表 
不 从 NN 个 实验 模式 中 正确 分 类 的 模式 数 。 因 此 比率 

ps = A 
me 一 个 随机 变量 ， 它 提供 了 网 络 实 际 分 类 性 能 p 的 最 大 似 然 无 偏 估计 。 假设 关于 N 对 输 
人 -输出 而 言 p Æ— PRR, Ke VAR Chemoff FF ( Devroye, 1991) FHF p 的 估计 可 ， 得 到 
P(| py- pl>e) < epl- 2 N)=8 
XF e=0.01, 6=0.01( BDL 99% PRERE p ATHA A EA E JH Chemoff 界 
得 到 N =26 500。 内 此 ， 我 们 挑选 一 个 N =32 000 的 测试 集 ， 表 4-2 的 最 后 -一列 给 出 这 个 测 
试 集 的 正确 分 类 概率 的 估计 ， 每 一 个 结果 都 为 试验 的 十 个 独立 实现 的 平均 值 。 

ER 4-2 中 列 出 的 有 两 个 隐 泌 层 的 多 层 感知 事 的 分 类 性 能 已 经 合理 地 接近 于 Bayes 性 能 
P.=81.51%, 在 这 种 基础 上 ， 我 们 可 以 总 结 出 对 于 这 里 描述 的 模式 分 类 问题 使 用 两 个 隐藏 
神经 元 是 合适 和 的。 为 了 强调 这 个 结论 ， 在 表 4-3 中 列 出 有 四 个 隐藏 神经 元 的 感知 器 的 模拟 结 
采 ， 网 络 其 他 一 些 参数 的 信保 持 不 变 。 昌 然 在 表 4-3 中 对 于 4 个 隐藏 神经 元 均 方 误差 比 表 
4-2 中 对 2 个 神经 元 的 略 小 ， 但 是 正确 分 类 的 平 铅 率 并 没有 改进 ; 事实 |.， 还 略微 差 了 一 点 ， 
对 于 这 里 描述 的 计算 机 实验 的 以 后 部 分 ， 孢 浅 层 的 数目 保持 为 2。 

表 4-3 使 用 四 个 隐藏 神 既 无 的 案 层 感知 器 的 模 氢 钴 果 - 








ii fT F Whee H i (a= BARE ER P 
| 0 320 0.2199 f 80. 80% ; 
2 2000 80 6.2108 80.81% 
3 8000 20 9.2142 80.19% 





» PJR =0.1 MDE a0 
RASHID NSU BSH | 和 动量 常数 a 的 最 优 值 ， 我 们 可 以 使 用 下 面 三 
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个 定 儿 中 的 任何 一 个 : 
i. 最 优 的 和 ua 平均 上 使 得 网 络 收敛 于 误 益 曲面 上 局 部 最 小 所 需 回 合 数 目 最 小 : 
2. 最 优 的 了 和 ce 平均 上 或 最 坏 情 况 下 使 得 网 络 收 伊 于 误差 曲面 上 全 局 最 小 所 需 回合 数目 
i /|* > 
3. 最 优 的 和 a 平均 上 上 以 最 少 的 回合 数 使 得 网 络 收敛 于 在 整个 输入 空间 具有 最 好 的 汉化 
性 能 的 网 络 配 置 。 
这 里 使 用 的 术语 “平均 "和 “最 二 情况 ” 指 的 是 训练 输入 一 输出 对 的 分 布 。 定 处 3 实际 上 是 理想 
情况 ; 然而 很 难 应 用 因为 在 网 络 训练 过 程 中 最 小 化 声 方 差 通 党 是 最 优化 的 数学 准则 ， 而 且 正 
如 前 面 所 说 ， 在 一 个 训练 集 上 较 小 的 均 方 差 并 不 痘 屿 普 更 好 的 认 化 能 力 。 从 研究 的 观点 来 
看 ,定义 2 比 定义 1] 更 有 意义 。 比 如 在 Taof1991) 中 给 出 关于 学 习 率 了 的 最 佳 适应 值 的 严格 
结果 ， 学 习 计 mm 的 最 佳 适应 值 指使 得 多 层 感 知人 散人 居 计 全 局 最 优 突 和 甬 权 全 起 阵 达 到 期 望 的 精度 
所 使 用 的 回合 数 最 少 的 学 习 率 7 的 值 ， 虽然 只 是 对 线性 神经 元 这 和 神 特 殊 情况 。 然 而 通常 在 使 
用 定义 1 时 ， 试 探 方 法 和 实验 性 的 过 程 决定 了 nn 和 的 最 优选 择 。 因 此 对 于 这 里 描述 的 实 
验 ， 在 某 种 意义 上 我 们 认为 是 在 定义 1 的 意义 下 最 优 。 
使 用 一 个 多 层 感 知 器 和 两 个 隐 上 藏 神经 元 ， 对 学 习 洁 参数 We 10.01,0.1,0,5,0.9| 和 动量 
前 数 a10.0,0.1,0.5,0.91 的 组 合 进 行 柑 拟 以 观察 它们 在 网 络 收 做 上 的 效果 。 每 个 组 合用 相 
同 的 初始 随机 权 值 集 和 相同 的 500 个 样本 集 来 训练 ， 以 便 实 验 结 果 可 以 直接 比较 。 学 习 过 程 
连续 进行 700 回合 后 结束 ; 这 个 训练 长 庶 对 于 上 反 向 传播 算法 来 说 被 认为 是 在 误差 曲面 上 足以 
达到 局 部 最 小 值 。 这 样 计算 的 总 体 - 平均 学 习 曲 线 如 图 4-15a - 4-15d R, RERE y 
来 单独 分 组 的 。 
这 里 显示 的 实验 性 学 习 覃 线 指出 如 下 的 趋势 ， 
。 通 第 当 一 个 小 的 学 习 举 参数 % 产生 一 个 较 伤 的 收 合 时 ， 它 可 以 比 一 个 大 的 nn 找 到 “更 
深 ”的 局 部 最 小 但 (在 误差 曲面 中 )。 这 个 结果 在 直观 上 是 令 入 满意 的 ， 因 为 一 个 小 的 
m 意味 着 一 个 最 小 佣 的 搜索 将 会 比 在 太 的 n 的 情况 下 和 堆 盖 更 多 的 误差 曲面 。 

© Sy OR. HA aol 使 收 合 速 率 加 快 。 男 一 方面 ， 当 wl 时， 又 要 求 oO 来 保证 
学 习 有 的 稳定 性 。 


id 
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图 4- 15 对 不 同 的 动量 a A BS ay PRL OP TH HE 
ajn=0.01 bjn=0.1 cin=0.5 d}n= 0.9 
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© FAX n= 10.5,0.9! Al a= 0.9 HEH FEO AAPA ER a AA E 
ATA ABA, Maa eae. 

在 图 4-16 中 ,我们 显示 RE "的 学 当 曲 线 ， 这 些 学 习 曲 线 是 从 括 4-16 中 各 组 学习 曲线 中 选 
择 开 来 的 ， 以 便 抉 是 一 个 整体 上 的 最 住 党 汪 有 得 线 ， 这 里 的 “最 住 " 是 从 有 前 面 上 所 描述 的 点 1 意义 
上 定义 的 。 图 4-16 显示 最 优 学 习 浆 参数 大约 为 0.1， 而 最 优 动量 常数 a, 大约 为 0.5。 因 
Ih, Æ 4-4 总 结 在 其 余 实 验 中 使 用 的 网 络 人 参数 最 优 值 。 图 4- 16 小 每 条 出 线 的 最 终 珀 方 误 差 
在 ?和 = 的 范 财 上 变化 并 不 明显 这 一 事实 ， 暗 示 该 问题 有 一 个 “表现 良好 ” 芭 相 当 平 洪 ) 的 误 
22 tH IA 


SNES ,y ”动量 常数 .ua 





图 4-16 从 图 4-15 的 4 部 分 挑选 出 的 最 好 学 习 曲 线 
x44 BRA HSESH Se 








= W fT iF H 

a aH FT op 2 l 
Fj Ree Top 0.1 
ES] Ft BS Sr Bact O.5 





最 优 网 络 设 计 的 评价 ”给 定 的 “最 优 " 多 层 感 知 器 具有 如 表 4-4 BABS, ORM ER 
RUM. AR - 平均 学 习 曲 线 久 及 正确 分 类 的 概率 的 最 终 网 络 的 值 。 因 为 训练 集 有 限 ， 具 有 
最 优 参 数 所 学 得 的 网 络 图 数 存 本质 上 是 “随机 的 "”。 因 此 这 些 性 能 度量 是 在 20 个 独立 训练 网 
络 之 上 的 总 体 平均 。 每 个 训练 集 由 1000 个 样本 组 成 ， 这 1000 个 样本 是 从 名 ， FG, KA Ai 
中 以 相同 概率 抽取 出 米 的 ， 并 以 随机 顺序 呈现 给 网 络 。 和 以 前 一 样 ， 训 练 持 续 FOO 个 回合 ， 
为 了 止 确 分 类 概率 的 实验 性 确定 ， 先 前 曾 使 用 过 的 32 000 个 例子 的 测试 集 再 次 被 使 用 。 

图 4- 17a 显示 在 总 体 为 20 的 3 个 网 络 的 3 个 最 佳 决策 边界 ， 图 4-17b 显示 在 同样 的 总 体 
PAARS 个 网 络 的 3 个 最 莽 决 策 边 界 。 阴 影 { 阅 ) 的 Bayes RAMSAR LESS. 
从 这 些 图 我 们 观察 到 由 反 向 传播 算法 构建 的 决策 边界 相对 于 属于 类 吧 , 或 所 , 的 区 域 而 言 是 钙 
J, LEETS A, 的 区 域 是 指 决 策 边界 将 观察 向 量 Oae 或 %, 类 的 区 域 。 
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图 4-17 


a3 个 分 类 精度 最 好 的 决策 边界 图 ， 80.3900 , 80.40% 和 80.43% 
p13 个 分 类 精度 最 共 的 决策 边界 图 : 77.249, 75.01% H 71.59% 


由 训练 样本 计算 出 来 的 性 能 度量 的 总 体 统计 特性 、 正确 分 类 概率 以 及 最 终 均 方差 罗列 于 
表 4-5 中 。 对 最 佳 Bayes 分 类 器 的 正确 分 类 概率 为 81.5]1 多 。 
表 45 性 能 度量 的 总 体 统计 特性 (样本 数 = 20) 


性 能 产量 均值 标准 偏差 [198| 
正确 分 类 概率 39, 1% 0.44% 
Rey) Pike (1.2277 0.0118 
Sa 0 Se 一 -一 一 
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4.9 ”特征 检测 


在 采用 反问 传播 算法 学 习 的 密 居 感知 做 的 运算 中 ， 际 藏 神经 元 共有 重要 的 作用 ， 这 是 因 
为 隐藏 神经 元 扮 池 者 特征 检测 句 的 基色 。 随 着 学 习 过 程 的 进行 ， 陋 臣 神 经 元 这 渐 发现" 表征 
圳 练 数 据 的 祥 在 特征 。 它 们 之 所 以 这 样 是 通过 执行 一 种 非 线性 变换 将 输 人 数据 变换 到 -一 种 称 
之 为 隐藏 空间 或 特征 空间 的 新 空间 ， 陆 藏 空间 或 特征 空间 这 了 两 个 术语 在 本 书 中 二 摘 使 用 。 例 
如 在 模 陈 分 类 任务 下 新 空间 中 感 兴趣 的 类 可 能 比 最 初 的 输 人 空间 更易 彼此 分 离 ，4.5 节 所 讨 
论 的 XOR 问题 很 好 的 说 明了 这 一 点 。 

方 了 拒 问 题 放 四 到 效 学 环境 下 分析 ， 假 说- -个 多 层 感知 齿 有 一 个 包含 m 个 隐藏 神经 元 
的 非 线 性 层 ， 以 及 一 个 包含 m = 前 个 输出 神经 元 的 线性 层 。 输 出 层 中 选择 线性 神经 元 的 动 
机 是 希望 集中 注意 力 于 隐藏 神经 元 对 多 层 感知 器 运行 的 作用 。 对 网 络 突 触 权 值 进行 谢 季 ， 使 
网 络 的 昌 标 输出 与 实际 输出 之 间 的 均 方 谋 差 达到 最 小 化 ， 这 里 的 卓 标 输出 是 期 望 响应 ， a 
4 deta TN om, Seo A ine sk), AXP SE NN 个 模式 执行 总 体 平 均 产生 的 输出 。 今 
zn) 为 隐藏 神经 元 j 在 输入 模式 下 产生 的 输出 。 由 于 宜人 每 个 隐藏 神经 元 的 sigmoid 激活 
蚊 数 ，zkn) 是 应 用 十 网 络 输入 层 的 模式 ( 回 量 ) 的 一 个 非 线性 函数 。 


在 输出 层 中 神经 元 天 的 输出 为 
al k= 1,2,-+,M 
y(n) = 24 wz Ca), ea Eiei (4.69) 
这 里 wy AY HAP ASIC k HNE, PEE ATNA 
En = sy D Dln n) = ynad) (4.70) 


CE BOS HBG eet ae rsh. PLAGE (4.69) FI(4.70), BARR RE. LA BE eF 
Wr H 
€ = = 54 ID- WZ ||? (4.71) 

这 里 到 是 网 络 输出 层 突 触 权 值 的 M x om, FEE. FRE Z a ee at Ck AT OE PE 
HADAI m x 入 知 阵 ， 它 通过 应 用 于 网 络 输 入 屋 的 个 输入 模式 生成 ， 也 县 

ra Cz, Cn) =de = 2m = hN 
这 里 y, 是 到 4m) 的 平均 值 。 HME, EPE D 是 呈现 给 网 络 输 出 层 的 目标 模式 (期 望 响应 ) 的 
Mx NIGRE, t2 ER 

D = |(d,(n)} 二 


这 里 py 是 dt) 的 均值 。 认识 到 由 式 (4.70) 定 义 的 ,的 最 小 化 是 一 个 线性 最 小 平方 问 


nal, FCA 
w = DZ (4,72) 
eH, RE ZZ a es, E.M PP (4.7): 
Ë nin = tri DD’ - DZ (ZZ) + ZD |] (4,73) 


RE ul ] 表 示 迹 算 子 。 因 为 用 矩阵 D Rat) Bintistile, MGS ERAR R RER 
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w MER RRE, FATRA Sl] eR Webb and Lowe, 1990) 
T = tri C, C] (4.74) 
ZER C, MCC EMF: 
* m x m E C, BARDEN 输入 模式 得 到 的 隐藏 神经 元 输出 的 总 体 协 方差 矩阵 
C, = ZZ (4,75) 
SEM Cy dE CC KS, 
* m xm RC, ERA 
C, - 2D'DZ (4.76) 
注意 由 趟 (4.74) 定 义 的 判别 晒 数 2 完全 由 多 层 感知 器 的 隐藏 神经 元 决定 。 并 且 没 有 对 组 成 非 
线性 变换 的 际 藏 层 的 导数 有 所 限制 ， 其 中 非 线性 变换 负责 生成 判别 冰 数 @。 在 隐藏 层 数 目 大 
于 1 HSER T, ER Z 表示 由 最 后 隐藏 神经 元 定义 的 空间 中 全 部 模式 集 。 

Al TAERE C, 做 出 解释 ， 考 虑 一 个 MG 1 Cone-from-M) 编码 格式 的 特 萄 选择 (Webb and 
Lowe, 1990 )。 怠 是 讨 ， 大 所 选 模 式 属于 那个 类 ， 则 对 该 模式 的 日 标 值 (期 望 响 应 1, 
AINA O, 20 Bras: 

0 


d(n) =| 1 |= Rk PUR, d{n) € &, 
U 
f 
因此 ,假如 有 M TRG, k=1, 2, =, M, HP N PERERE, 中 并 且 有 


STN, = N 
我 们 因而 可 以 对 这 个 特殊 编码 方案 将 矩阵 C 展开 为 如 下 形式 ， 


if 
C; = > Ni Hna — P) (Ba — Be)? (4.77) 
k=l 


这 里 m x 1 的 向 量 p o EAR TM TES, PN, 个 模式 的 向 量 平 均值 ， 而 向 量 
是 隐藏 神 经 元 轩 出 关于 NN 个 输入 向 量 的 向 量 平均 值 。 程 据 式 (4.77)， 我 们 可 以 将 C, 解释 为 
隐藏 层 输出 的 加 权 类 间 协 方差 矩阵 。 

因此 ， 对 于 一 个 ME 二 的 编码 方案 ， 多 层 感 孝 咽 最 大 化 一 个 判别 函数 ， 该 兰 别 函数 为 
加 权 类 章 协 方差 矩阵 和 总 体 协 方差 矩阵 的 伪 道 这 两 个 矩阵 乘积 的 迹 。 这 个 结果 非常 有 趣 ， 这 
是 因为 它 说 明 一 个 由 反 向 传播 学 习 的 多 层 感 应 器 是 如 何 融合 单个 类 中 的 样本 比例 作为 先 验 知 


识 。 
和 Fisher 线性 判别 式 的 关系 


出 式 (4.74) 定 义 的 判别 函数 全 对 于 多 层 感 知 器 来 说 是 惟一 的 ， 它 与 Fisher Ki Ex Bt 
非常 相似 ，Fisher 的 线性 判别 式 描述 一 个 由 多 维 问 题 到 一 维 问 题 的 线性 变换 。 假 设 变节 y 由 
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一 个 输入 问 量 x 的 元 系 线性 组 合 而 成 ， 也 就 是 说 * 定义 为 x 和 可 调 参 数 v RE- MR 


其 党 一 个 元 素 ) 的 向 量 的 内 积 ， 所 水 如 下 : 
Y= Wx 
HE x 是 从 类 %! FZ, 总 体 中 的 -个 抽取 出 来 的 ， 类 名 ， MS, 的 总 体 由 于 它们 的 均值 问 
E p Ma ARKE KAA NER Fisher 准则 定义 如 下 : 
w Cw 
w Cw 





JT w) = 


这 里 C, €X HADIAHE, EMA 
C, = (m - wh) - m) 
IM C, a GAVE ABA Ze eM, EAH 
C, = >, (X, 7 Hi (Cx, = TEH + 2, (x, 7 HW (x, a pw)! 
nE, 


nob, 


FA AEM C, 与 训练 集 的 样本 协 方差 矩阵 成 比 列 。 它 是 对 称 的 而 且 非 负 定 ， 在 训练 集 
xe WS AC ERRER, RB) BY ESE C, CUES AE RAE, BERR. 
— ARA BS EI SER Cow RES p - AAR. AAEE C, 定义 
直接 得 出 。 
REE EX Fw) GARI PRA X Rayleigh MAK. BRL Tw}) 的 向 量 w 必须 满足 
GRRE; 
Cw = AC, w (4.7R) 
ACTE E— AT AFERA, ARRIERE PEER Cw REARS w -e 
的 方向， 我 们 发 现 式 (4.78) 的 解 为 
w= Co Cw, - pw? (4.79) 
AREER Fisher 的 线性 判别 式 (Duda and Hart, 1973). 
加 到 特征 检测 的 问题 ， 回 忆 式 (4.74) 的 判别 函数 守 和 模式 变换 到 网 络 隐藏 层 空间 的 类 问 
by 32 a RR SE PEA HG AL BG Fisher 线 人 性 判别 式 相 同 的 作用 ， 这 就 
是 为 什么 神经 网 络 可 以 非常 好 的 执行 模式 分 类 任务 的 理由 。 


4.10 反 回 传播 和 微分 


及 向 传播 是 用 于 在 多 层 前 馈 网 络 的 权 
值 空间 中 实现 梯度 下降 的 一 种 特殊 技 巧 。 
其 基本 思想 是 有 效 计 算 一 个 近似 瞪 数 
Fw, x) PURI, Rea a A et x AY) 
值 近似 函数 F(w,x) 由 网 络 根 据 可 调整 权 
但 向 量 w 的 所 有 元 素 实 现 。 这 一 点 决定 了 
反 向 传播 算法 的 计算 能 力 '… 。 

进一步 ， 候 和 定 一 个 多 层 感 应 器 有 一 个 


m 个 节点 的 输入 层 ， 两 个 隐藏 层 ， 以 及 
一 个 单一 的 输出 神经 元 ， 如 图 4-18 所 示 。 SAB 具有 次 个 网 茂 层 和 一 个 输出 层 的 多 层 感知 器 





"A “第 一 隐藏 层 FORRES 输出 层 
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ACAI] St w CR HBR METRES) ARRIBA HS UCM RAR TS 
JOP 3S ARR ASRHEE. owl? Zoe Meo BR =0, 1, 2, - PRA j KIR A 
É. SF l=1, Wii FR TRE, Fe i 表示 一 个 源 结 点 而 不 是 :个 神经 元 ; 对 于 [= 
3， 对 应 于 图 4-18 的 给 出 层 ， 我 们 有 j=1。 对 于 一 个 特定 的 输入 问 量 xX= oxy tnt” ， 
Ieee AR Pow xe ea w 的 所 有 元 碌 的 导数 值 。 注 意 对 于 =A BLA ee 
Be), Be FltW,X) 具 有 类 似 于 式 (4.9) 右 边 的 有 形式。 我 们 包含 权 值 问 量 w 作为 图 数 F RJA 
fm, SPREE BE. 

图 4-18 WS ERS Alani ag FS (RNP AS A tse Ee 2 
成 ) 参 数 化 。 令 怠 ;” 表 示 从 输入 屋 (7 = 0) SUE 1 =1, 2, 3 内 的 节点 了 所 扩展 成 的 部 分 结构 。 
因此 ， 我 们 可 以 写成 

F(w,x) = (47) (4.80) 

这 里 o ERASO Bm, A 仅仅 被 认为 是 一 个 结构 符号 而 不 是 一 个 变量 ， 因 此 ， 改 写 式 
C4.1)、(4.2)、(4.11) 和 (4.23) 使 之 在 这 种 情况 下 可 用 ， 我 们 得 到 如 下 结果 ， 

IFW, x) 





3g = P(A elt) (4.81) 
Ik 
吉 
SEAM ew gl (at AP A Jol? (4.82) 
i 
dF (wx) gt r il | ca) gi?) (2) 
Je = Ta ] Hogi : jx 人 i w (4.83) 
fi 


这 里 多 是非 线性 关于 其 输入 的 偏 导数 ，x, 是 输入 问 量 x 的 第 i 个 元 素 。 用 相似 的 方法 我 
们 可 以 得 到 一 般 的 具有 更 客 的 隐藏 层 和 三 输 出 层 上 有 更 多 神经 元 的 网 络 的 偏 导 等 式 。 

式 {(4,.81) 圣 (4.83) 对 于 计算 阿 络 国 数 Flow DK TRAE w 的 元 素 变 化 的 灵敏 摩 提供 
了 基础 . Oo RNAS w HR, Flow, JRF oH RELA 


oF JFIF 
tw T Juw’ 


由 于 这 个 原因 我 们 把 图 4-7 HE S mA BAR eB ad RY R RER”, 
Jacobi 矩阵 


令 四 表示 一 个 多 层 感知 器 目 由 参数 ( 即 突 触 权 值 和 偶 置 ) 的 总 数 ， 参 数 按 形成 权 值 向 重 
w 的 方式 排序 。 令 N 表 小 用 于 训练 网 络 的 样本 总 数 。 对 于 训练 集中 的 给 定 样 本 x(n), 利用 
友 问 传播 我 们 可 以 计算 近似 图 数 Pow x(n) DR wR Se. MF n=l, 
2，…… ,NN 重复 上 述 计 算 ， 最 后 得 到 一 个 Nx WA PRE, SEE RRAS EROS 
HITE x(n) 处 Jacobi HERE Jo Jacobi 年 阵 每 列 对 应 于 训练 集中 的 一 个 样本 。 

实验 证 据 显 示 许 多 神经 网 络 训 练 问题 是 内 在 “病态 的 ”"， 导 致 Jacobi RE JILE BERS 
4 #9 (Saarinen et.al.,1991), SPER 1 RT AAA A Paps. 
假如 秩 小 于 mint N, W), Riik Jacobi ERE J ERS HRAJ Œ Jacobi I REP EMER G 
Aa el fe RE ST BB ST ERA B Min FARNE RK 


4.11 Hessian 和 矩阵 
ARDY xR RE, (w) AY Hessian 矩阵 用 HH 表示， 定义 为 名, (Ww) 对 权 值 向 量 Ww 的 二 阶 导 数 ， 显 





wE wW 
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Hessian 第 阵 在 研究 神经 网 络 中 起 着 重要 作用 ; RUHR PIL: 

t. Hessian 祭 阵 的 特征 值 对 反问 传播 学 习 动 力学 有 着 深远 的 影响 ; 

2. Hessian 条 阵 的 道 为 从 一 个 多 层 感 知 器 中 修 前 ( 即 删 除 ) 不 重要 的 突 甬 权 但 提供 基础 ， 
al 4.15 玫 所 讨论 ; 

3. Hessian 年 阵 是 形成 二 阶 优 化 方法 的 基础 ， 二 阶 优化 方法 可 作为 反 向 传播 学 习 的 在 代 ， 
如 4.18 闻 所 讨 论 。 

在 4.15 节 给 出 一 个 计算 Hessian 托 阵 的 送 代 程序 ”， 在 本 节 中 我 们 将 注意 放 在 点 Lo 

在 第 了 3 机 我 们 说 明了 Hessian 定 阵 的 特征 结构 好 LMS 算法 的 收 人 钱 性 质 有 重大 影响 。 它 对 
反 向 传播 算法 也 - 样 ,但 是 更 为 复杂 。 上 典型 地 用 反 向 传播 算法 来 训练 的 多 层 感 知 器 共 误 差 曲 
面 的 Hessian 窜 隆 有 如 下 的 特征 值 组 合 (TeCun,et al. ;199]; LeCun, 1993): 

。 小 特征 值 的 数目 很 少 ; 

* 中 等 坟 小 的 特征 值 的 数 自 很 多 ，; 

。 大 特征 值 的 数 日 很 少 ， 

x P28 Al Ss 4] SP 20 FF 

。 JESIS( NA fas AES See SM fas 

。 输 人 信和 叶 向 量 的 元 素 之 间 的 相关 性 和 神经 元 诱导 输出 信号 之 间 的 相关 性 。 

。 代价 函数 对 于 网 络 中 神经 元 突 甬 权 值 的 二 阶 导 数 随 着 我 们 从 一 屋 到 下 一 层 进行 处 理 

有 很 宽 的 变化 范围 。 在 较 低 的 层 中 二 阶 导数 遂 常 更 小 ， 这 样 突 触 权 值 在 第 一 隐藏 层 
的 学 习 很 慢 ， 但 在 最 后 一 层 就 学 习 较 快 。 

从 第 了 章 我 们 可 以 回忆 起 LMS 算法 的 学 习 时 间 对 条 件数 入 访 的 变化 很 灵敏 ， 这 里 A 
是 Hessian 上 第 阵 最 大 的 特征 值 ， 而 入 , Hessian 矩阵 最 小 的 非 0 特征 值 。 实 验 结果 显示 反 向 
传播 算法 有 着 相同 的 结 末 ， 反 回 传播 算法 是 LMS 算法 的 一 个 推广 。 对 于 非 零 均值 的 输入 ， 
它 的 比值 Ara A 比 相 应 的 和 零 均 值 输入 的 比值 要 大 ， 输入 的 均值 越 大 ， 比 仁和 入 Ao, 越 大 ( 见 习 
题 3.10)。 这 个 疯 察 对 反问 传播 学 习 动 力学 有 着 重要 意义 。 

为 了 学 习 时 间 最 小 化 ， 应 避免 使 用 非 零 均值 的 输 和 人。 现在 ， 就 考虑 应 用 于 一 个 多 层 感 知 
船 的 第 一 隐藏 屋 的 神经 元 的 信号 向 量 xt 即 应 用 于 输入 层 的 信号 问 量 } 而 论 ，x 应 用 于 网 络 之 
前 先 减 去 它 的 每 个 元 素 一 个 平均 值 是 很 容易 的 。 但 是 将 信号 应 用 到 剩 下 的 隐藏 层 和 输出 层 中 
的 神经 元 情况 又 会 如 何 呢 ? 这 个 问题 的 答案 在 于 网 络 中 使 用 的 激 话 函数 的 类 型 。 候 如 激励 斑 
数 是 非 对 称 的 (比如 logistic 尔 数 }， 每 个 神经 元 的 输出 算 于 [0,1] 区 间 。 这 样 的 选择 为 那些 位 
于 网 络 中 第 一 隐藏 层 之 后 的 神经 元 带 来 了 一 个 系统 偏差 源 。 为 了 子 克 服 这 一 问题 我 们 需要 利用 
一 个 如 局 双 曲 正切 画 数 的 反对 称 男 数 。 对 于 后 一 种 选择 ， 每 个 神经 元 的 输出 可 以 是 区 间 
[ -1,111 中 的 任何 正 值 和 负 值 ， 在 这 种 情况 下 ， 它 的 均值 可 能 为 0。 假 好 两 络 连接 数 很 大 ， 
用 反对 称 激活 函数 的 反问 传播 学 习 可 能 比 一 个 使 用 非 对 称 激活 函数 的 相似 过 程 有 着 更 快 的 收 
全 .对 此 也 被 经 验证 明 (LeCun et al. ,1991 )， 这 为 4.6 节 描述 的 启发 3 提供 合理 性 依据 。. 


4.12 BE 
在 反问 传播 学 习 中 ， 我 们 一 般 从 一 个 训练 样本 开始 ， 而 且 通 过 向 网 络 中 装载 (编码 ) 尽 可 


ww ai bbt.com TAAWAOAA 





i 


FE fa & 145 
能 多 的 训练 样本 来 使 用 反 向 传播 算法 计算 一 个 多 层 感知 器 的 突 触 权 值 。 希 望 这 样 设计 的 神经 
网 络 可 以 泛 化 (推广 )。 对 于 从 未 在 生成 或 训练 网 络 时 使 用 过 的 测试 数据 ， 若 网 络 计算 的 输 
人 -输出 映射 对 它们 来 说 是 正确 (或 接近 于 正确 ) 的 ， 我 们 认为 网 络 的 泛 化 是 很 好 的 ; 术语 
四 化 "是 从 心理 学 中 借用 来 的 ,这 里 假定 测试 数据 是 从 几 于 生成 训练 数据 的 相同 数据 集 抽 
取出 来 的 。 

字 井 过程 { 吧 神经 网 络 的 训 
练 ) 可 以 看 作 是 一 个 “曲线 拟 合 ” 
的 问题 。 网 络 本 以 可 以 被 简单 地 sk Sate i AT 
认为 是 一 个 非 线性 输入 一 输出 映 | 
射 。 这 个 观点 允许 我 们 不 再 把 神 
经 网 络 的 泛 化 看 作 是 它 的 一 个 神 we 
秘 的 特性 ， 而 是 作为 相当 简单 的 
关于 输入 数据 非 线性 插值 的 结果 
(Wieland and Leighton, 1987 )。 这 = 
神 网 络 能 够 完成 有 意义 的 插值 过 waaa å C \ 
程 主要 是 因为 具有 连续 激活 函数 es 
的 多 层 感知 器 导致 输出 函数 同样 
也 是 连续 的 。 

图 4- 19a 表明 一 个 假定 的 网 
络 是 如 何 进行 泛 化 的 。 图 中 描绘 
的 曲线 所 代表 的 非 线性 输入 / 输 
出 映射 是 由 网 络 通 过 对 标 有 “ 训 
练 数据 "的 点 进行 学 习 的 结果 来 
计算 的 。 曲 线 上 标 有 “ 泛 化 "的 点 
就 是 由 这 个 网 络 完成 的 插值 结 
果 。 

一 个 神经 网 络 设计 得 具有 很 
好 泛 化 能 力 ， 即 使 在 输入 与 训练 
网 络 的 样本 稍 有 不 问 的 情况 下 全 
也 能 够 产生 一 个 正确 的 输入 / 输 A 


uae FN 
W UN ERHAN 
ERIT, IE SOAP E En A b) 


样 。 然 而 ， 当 一 -个 神经 网 络 对 太 图 4-19 


+ > alfa =r : 全 - 
客 的 样本 进行 学 习 的 时 候 ， 它 可 ;恰当 地 氢 合 数据 { 眼 好 汉化 ) ba Ce th) 


能 会 完成 对 训练 数据 的 记忆 。 这 种 情况 可 能 会 出 现在 找到 一 个 存在 于 训练 数据 中 但 对 于 将 要 
建 模 的 固有 函数 却 为 鼻 的 特征 ! 例 如， 由 于 噪声 ) 的 时 候 。 这 种 班 象 称 为 "过 拟 合 "或 者 “过 训 
练 "。 当 阿 络 锌 过 训练 的 时 候 ， 它 惑 失去 了 在 相近 输 人 /输出 模式 之 间 进 行 谤 化 的 能 力 。 
通常 ， 用 这 种 方法 把 数据 装载 到 多 层 感知 器 要 求 使 用 比 实际 需要 更 多 的 隐藏 层 神经 元 
结果 导致 在 网 络 的 突 触 权 值 中 存 锚 了 输 人 空间 中 由 于 噪声 引起 的 非 期 望 因素 。 例 如 ， 在 图 
4- 19a 相同 的 数据 条 件 下 ， 图 4- 19b 显示 由 于 神经 网 络 中 的 记忆 导致 泛 化 不 佳 是 如 何 出 现 的 











aN 
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例子 。“ 记 忆 ? 本 质 上 是 一 个 “查询 表 "， 这 意 昧 着 由 神经 网 络 计算 的 输入 /输出 映射 是 非 光滑 
的 。 正 如 在 Poggio and Cirosif 1990a) 文章 中 指出 的 那样 ， 输 和 人 /和 葡 出 遇 射 的 光 谓 性 和 如 Occam 
$4 7) COccam’s razor) 之 类 的 模型 选择 标准 紧密 怕 关 ， 在 汕 有 相反 的 先 验 到 识 情况 下 它 的 核心 
本 质 是 选择 “最 简单 ”函数 。 和 针对 于 我 们 给 出 的 讨论 ， 最 简单 函数 是 指 在 给 定 的 误差 标准 下 记 
近 一 个 给 定 上 射 的 郊 数 中 晤 光滑 的 函数 ， 因 为 这 个 选择 总 体 上 要 求 最 少 的 计算 资源 。 依 藉 于 
PATA ALB, SORTA CPP AL RAR. ATA Bide A AH ER 
可 找 一 个 光 请 的 非 线 性 映射 是 重要 的 ， 使 得 网 络 能 够 根据 训练 模式 将 新 筑 式 正确 地 分 类 
(Wieland and Leighton, ,1987 ) 。 


为 有 歼 的 这 化 给 出 充分 的 训练 集 大 小 


PRN TARE ee: 人 1) 训练 集 的 大 小 ， 以 及 它 如 和 柯 表示 感 兴 趣 的 环境 ; 
(2) 神 经 网 络 的 体系 结构 ; (3) 当 前 问题 的 物理 复杂 度 。 无 疑 地， 我 们 无 法 对 后 者 进行 控制 ， 
在 垦 外 的 两 个 因素 中 ， 我 们 可 以 从 两 个 不 同 的 方 而 考察 江北 问题 (Hush and Home, 1993) 

。 网 络 的 体系 结构 是 固定 的 (可 期 望 与 固有 问题 的 物理 复杂 度 一 致 }， 需 要 解决 的 问题 

是 决定 一 个 产生 好 的 泛 北 必须 的 训练 集 的 大 小 。 
© 训练 集 的 大 小 是 固定 的 ， 感 兴趣 的 问题 是 类 定 最 好 的 网 络 体 系 结构 使 得 具有 好 的 泛 
E. 
在 它们 各 自 的 方法 里 这 两 种 观点 部 是 合理 的 。 当 前 我 们 集中 讨论 第 一 种 观点 。 

适度 的 训练 样本 大 小 或 样本 复杂 度 问 题 已 经 在 第 2 章 中 讨论 过 了 。 上 正如 在 该 章 中 指出 的 
ABE, VC 维 数 为 这 个 重要 的 设计 问题 的 原则 性 解 次 方法 提供 了 理论 基础 。 特 别 地 ， 我 们 有 
与 分 布 无 关 和 最 趟 情形 下 的 公式 以 估算 能 够 足够 形成 一 个 好 的 泛 化 性 能 的 训练 样本 的 大 小 ; 
请 参见 2.14 他 。 不 幸 的 是 ， 我 们 经 常 发 现在 实际 沛 要 的 训练 样本 的 大 小 和 由 这 些 公式 预测 
的 训练 样本 的 大 小 之 间 存 在 着 巨大 的 数值 差异 。 正 是 这 个 差异 使 得 样本 复杂 度 问 题 成 为 一 个 
持续 公开 的 研究 领域 。 | 

在 实践 中 ， 看 来 一 个 好 的 泛 了 化 事实 上 我 们 所 需要 的 全 部 是 训练 集 的 大 小 N 满足 条 件 


N = of =) (4.85) 
在 这 里 OW EWKA t ESA AN SUR A BOA a, e 表示 测试 数据 中 容许 分 类 误差 
的 部 分 (正如 在 模式 分 类 中 一 样 )。0(:) 表 示 所 包含 的 量 的 阶 数 ,例如 ,具有 10 驶 误 益 的 所 
需 训练 样本 数量 应 该 是 网 络 中 自由 参量 数量 的 10 18 - 

式 (4.,835) 与 用 于 LMS 算法 的 Widow 经 验方 法 是 一 至 的， 后 者 指出 线性 自 适 应 时 间 滤 波 
肘 适 应 述 视 时 | 有司 近 似 等 于 一 个 自 适 应 抽 涉 延 汉 线 滤波 器 的 记忆 范围 除 以 误 调 节 (Widrow and 
Stearns, 1985), LMS 算法 中 的 误 调 节 扮 演 的 角色 与 式 {4.85) 中 的 误差 有 某 些 相似 这 个 经 
验 规则 的 进一步 理由 将 在 下 一 节 中 介绍 。 


4.13 AHSA 


一 个 由 反问 传播 算法 训练 的 多 屋 感知 器 可 以 被 看 作 -个 实现 AEE RO SER PE ACS 
HER ASC TA, A, S m ROLE RISA EAA, 令 Mam, # 
示 网 络 中 输出 层 神经 元 的 数 且 。 网 络 的 输入 /输出 关系 定义 一 个 从 mo 维 欧 几 里 德 输入 空间 
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天 M Ae A a ERY, “aS ed eR ES RA A RT th EAR 
Se A) GRAY. THAP ARS PE OT ISEB WP, Be TT PR oat 
本 的 问题 ， 

一 个 多 层 感 知 器 的 输入 /输出 映射 能 铝 提 人 殿 任 和 何 一 个 连续 瞎 射 的 近 仇 实现 ， 它 的 隐藏 层 
AMR) HB A Sve 
H Fi ee 

MPa By A Pee ree A eg BS Gn aa ee 来 具体 表达 ， 该 定理 陈述 
wF: 

邻 p(") 是 一 个 非常 数 的 、 有 界 的 和 单调 增 的 连续 淖 数 。 邻 n 表示 m 维 单位 超 立 方 体 
[0,1]. 2, bit BA EMA CU, RR. 那么， RAEN HH FIC, \feerd0, FE 
这 样 的 一 个 整数 om, Fe BH RK a, b, 和 yw， AP i=l, st, ms, j=1,…，mo， 使 我们 可 
ELEN 

F(x, ty Km) = >) a, D wx, + | (4,86) 
作为 f{(-) 函数 的 一 个 近似 实现 ; 也 就 是 说 ， 

Fay rta ) = fle ste) ce 
ALT AS PST AL £, x O, n IAE, 

HAEE ARH TIZRA A RASCH RBEIE AAA RA TM 
经 元 模型 中 作为 非 线性 部 分 的 logistic 函数 LT1 + exp( - 5)] 基 一 个 真正 非常 数 的 、 有 界 的 和 


单调 递增 的 函数 ; 因此 它 满足 图 数 qt- ) 的 上 述 条 件 ， 下 一 步 ， 我 们 注意 式 (4,86) 表 达 如 下 
Fira AY ee ed Sd E : 


1. 网 络 具有 mo 个 输入 节点 和 单个 由 m 个 神经 元 组 成 的 隐藏 层 ， 输入 由 on, oye, 
表示 。 
2. 隐藏 神经 元 i 具有 突 触 权 值 w, ，…，w。， 偏 置 b.。 


3. 网 络 的 输出 是 隐藏 层 的 线性 组 合 ， 带 有 定义 输出 层 突 触 权 值 的 oo an 。 

通用 通 近 定理 是 存在 性 定理 ， 它 与 精确 表示 相反 ， 为 任意 有 连续 函数 的 误 近 提供 数学 上 的 
基础 。 作 为 定理 的 本 质 ， 式 (4.86) 仪 仅 是 推广 有 限 Fourier 级 数 逼 这。 事实 上 ， 这 个 定理 说 
朋 ， 对 于 多 层 感 知 器 计 基 一 个 由 输入 x ty x, 和 期 望 (目标 ) 输 出 fC, oe, TR G 
RRO e BER, PARRARI, RAM, 定理 并 没有 说 明 单个 隐 三 层 在 学 
本 时 间 、 实 现 的 难 易 程度 或 者 (时 重要 的 ) 泛 化 意义 上 是 最 优 的 。 
E Ve EB FP 

假定 网 络 使 用 sigmoid PHAR A) Rat Ze oo A A PZB 90, Barron( 1993) Haz T £ 
ERARE. PAR eR, Ree, WANE 
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P, PS ARE Ul a eS 3 os eR Of PPA, MAM EBR 86) HEA 2 ae 
F S028 2 BTA BUT Pe ee, Pe ea F E H ee eer a i AT 
计 器 ; BI, F=f, 

一 个 日 标 上 数 的 光 请 度 属性 用 它 的 Fourier( THOER., ale, H Fourier 幅度 分 布 加 
权 后 的 频率 癌 量 的 范 数 的 平均 值 作 为 函数 了 振 葛 的 度量 标准 。 令 (@) Rem fx) HSE 
Fourier FR, xCR™: mx liao AWS) wm, Be f(x) 由 关于 它 的 Fourier 变换 函数 
Fo 的 反 变 换 公 式 定 义 如 下 : 

Fax) = |, f(@)explio"x) do (4.87) 


在 这 里 j=v -l1 MFR RR flo), HF wmf(m) 是 可 积 的 ， RNY aR 上 的 Fourier 幅 
度 分 布 的 一 阶 多 对 动量 如 下 : 


TE I. l fla) tx lol do (4.88) 


FOP jol Ao 的 欧 几 里 德 范 数 ，|f(ew) | 为 fm) 的 绝对 值 。 一 阶 绝 对 动量 C, thom eee W 
FGA BE BG EU PE. 

— Be aa C, A ALAR (4. 86) Pe A fai th a ee OF Ox) RB SE 
WA fC) TS BTR Zee Be RF Ry, WR EB WA 5 — GE > 0 的 球体 B = lx: 
Ix | 过 站 中 任意 可 能 的 概率 测度 上 相关 的 积分 半 方 误差 来 衡量 。 在 这 个 基础 上 我 们 可 以 对 
Barron\1993) 提 出 的 近似 误差 范围 的 界 提出 如 下 命题 : 

对 于 每 个 具有 有 限 一 阶 绝对 动量 C 的 连续 函数 f(x)， 以 及 每 个 mel, E-post 
(4.86) EXCH) sigmoid 函数 的 线性 组 合 F(x), {87% 


f, FG) - FO s & 


其 中 Le (2rC,)* o 
当 在 严格 属于 球体 B, 内 部 的 输入 向 量 x ASE A |x 1, 上 观察 函数 fx) TR, GB 
的 结 采 对 经 验 风险 提供 如 下 的 界 : 


= + ST} (f(x,) - F(x,)) = z (4.89) 


É Barron( 1992) P, AARC. 8D BE RAPA BA m 个 输入 节点 利 m 个 隐藏 神经 
元 的 多 层 感 知 混 而 导致 的 风险 R 的 界 如 下 ; 
R= o{ £1] + ol = log] (4.90) 

风险 RR AF oY PSA Py Re AS AB hs ER APT 
1. 最 佳 通 近 的 精确 度 。 为 了 满足 这 个 要 求 ， 根 据 通用 这 近 定理 隐藏 层 的 大 小 m， 必 须 足 
EK; | 

2. 近似 的 经 验 拟 全 精确 度 。 为 了 满足 的 第 二 个 要 求 ， 我 们 必须 使 用 一 个 小 的 比值 m? 
N。 由 于 训练 集 的 固定 大 小 为 N, BEERA D m 应 该 保持 较 小 ， 这 跟 第 一 个 要 求 是 于 后 
的 。 
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式 (4.90) 描 述 的 风险 RMA RAR TARA. Fale, RINE RBA 
对 动量 C 仍 是 有 限 的 话 ， 相 对 于 输入 空间 维 数 m 一 个 指数 规模 的 大 样本 集 对 于 得 到 一 个 
目标 函数 精确 的 估算 并 不 是 必须 的 。 这 个 结果 使 得 多 层 感 知 髓 作为 通用 通 近 部 在 实际 条 件 下 
蕉 至 显得 更 重要 。 

经 验 拟 合 和 最 佳 台 近 之 间 的 谋 差 可 以 着 必 是 第 2 章 中 所 述 的 估计 误差 。 令 s 表示 估计 
误差 的 均 方 值 。 然 后 扰 略 式 {4.0) 中 表达 式 的 第 二 项 的 对 数 因子 logN， 我 们 可 以 推 顺 出 一 个 
好 的 活化 所 需 的 训练 集 大 小 N 大 约 是 mm/an 这 个 结果 跟 经 验 公 式 (4.85) 具 有 相似 的 数学 
结构 ， 记 住 mm STRAF AESA HBR. Mami, RNA A UA SE 
到 好 的 泛 化 ， 训 练 样本 的 数 日 NIRA TR ee eS E E. 


维 数 灾 


出 现在 式 (4.0) 所 描述 的 界 中 为 一 个 有 趣 的 和 结果， 是 当 对 隐 惑 技 的 大 小 通过 设 定 
N lià 


“aS E 


进行 优化 (也 就 是 风险 RR 关于 NN 最 小 化 } 的 时 候 ， 这 时 风险 R H OCC, wmotlogNIN)) 限 定 。 
这 个 结果 的 一 个 令 人 惊奇 的 方面 是 根据 风险 的 一 阶 行 为 ， 以 训练 集 太 小 N 的 函数 表达 的 
收 全 速 率 的 阶 为 (LN) ( 乘 以 一 个 对 数 因 子 )。 在 另 一 方面 ， 对 传统 的 光滑 耳 数 (例如 多 项 式 
和 三 角 函 数 ) 我 们 有 不 同 的 行为 。 令 s 表示 光滑 度 的 一 种 度量 ， 定 义 为 函数 具有 连续 导数 的 
阶 数 。 那 么 ， 对 于 传统 光滑 函数 我 们 发 现 总 风险 R 的 极 小 极 大 的 收 伍 速率 的 阶 为 
(ADT 0? 这 个 收 化 速率 对 输入 空间 维 数 m 的 仿 赖 就 是 维 数 灾 ， 这 严重 地 制约 这 些 力 
数 的 实际 应 用 。 使 用 多 层 感 知 器 进行 函数 逼近 看 来 提供 超越 于 传统 光滑 困 数 的 优势 ; 但是， 
这 个 优势 受 限于 一 阶 绝对 动量 Cr 保持 有 限 的 条 件 ; 这 是 一 个 光滑 度 约 束 。 

Richard Bellman 在 他 对 自 适 应 控制 过 程 (Bellman,1961) 的 研究 中 介绍 了 维 数 灾 。 次 了 从 几 
何 上 解释 这 个 概念 ， 令 x 表示 一 个 mo SEMA BH. f(x. d,)1.79=1,2.°7°,N RIIA 
A, 采样 密 度 与 N"'"m 成 正比 。 令 函数 F(x) 代表 一 个 位 于 m 维 输 人 空间 的 曲面 ， 它 近似 通 
Alx, d). ME, MERA f(x) 是 任意 复杂 并 且 ( 对 绝 大 部 分 ) 是 完全 未 知 的 ， 我 们 
需要 密集 的 样本 (数据) 来 进行 很 好 的 学 习 。 不幸 的 是 ， 密 集 样本 在 “高 维 " 中 是 很 难 找 到 的 ， 
因此 产生 了 维 数 灾 。 特 别 地 ， 维 数 增加 的 结果 导致 复杂 度 呈 指数 增长 ， 从 而 引起 高 维 空间 中 


定义 在 高 维 室 间 的 函数 很 可 能 远 远 上 比 定义 在 焦 维 空间 上 的 陶 数 复 累 得 多 ， 计 且 这 些 复杂 
的 东西 是 更 难以 区 分 的 。 


克服 维 数 灾难 的 惟一 可 行 办 法 是 除 训练 数据 外 结合 关于 这 个 函数 的 一 些 先 验 天 识 ， 这 些 完 验 
知识 已 若是 正确 的 。 

在 实际 中 ， 也 可 能 存在 这 样 的 和 争论: 如 有 果 铝 望 在 高 维 宝 间 中 得 到 好 的 人 千 计 ， 随 者 输入 维 
数 的 增加 我 们 必须 增加 未 知 的 固有 函数 的 光滑 度 (Niyogi and Girosi,19967)。 这 个 观 扣 将 在 第 5 
章 中 继续 深信 讨论 。 
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Mee RLS, RU ERS), AW EAR AE TRE m AEN 
— 78 ir as A PRE ERE T ORAR EL, 如果 惟有 这 样 - :个 理论 ， 我 们 可 能 在 讶 日 寻找 
那些 并 不 存在 的 方法 。 然 而 ， 这 个 理论 并 不 是 构造 性 的 ， 即 它 实 际 上 并 不 能 具体 实现 如 何 山 
陈述 的 进 近 性 质 决 定 一 个 多 层 感 若 髓 。 

遂 用 通 近 定理 假设 钼 交 近 的 连 镇 虹 数 是 给 定 的 并 有 日 间 近 可 用 一 个 神经 元 数 日 无 限制 的 隐 
涛 层 。 这 两 个 假设 在 多 层 感知 名 的 绝 大 多 数 实 际 应 用 中 都 是 不 满足 的 。 

使 用 单个 隐 藏 层 的 多 居 感 类 器 的 问题 是 隐藏 层 的 神经 元 倾向 于 全 局 地 相互 作用 。 在 复杂 
情形 下 这 种 相 二 作用 使 得 齐 .~ 点 提高 它 的 逼近 同时 艾 很 难 不 垩 化 它 在 另外 点 上 的 逼近 。 另 一 
方面 ， 在 具有 机 个 属 藏 居 的 情况 下 通 近 (曲线 拟 合 ) 过 程 变 得 更 容易 苏 调 。 上 其 体 地 ， 我 们 可 以 
进行 由 下 处 理 (Funahashi, 1989; Chester, 1990) : 

L 从 第 一 个 隐藏 层 中 抽取 局 部 特征 : 特别 地 ， 利 用 在 第 一 个 隐藏 居中 的 一 些 神 经 元 将 
葡 和 人 空间 分 割 成 区 域 ， 这 层 中 另外 的 神经 元 学 习 表征 这 些 区 虞 特点 的 局 部 特征 。 

2. 从 第 二 个 陋 幼 关中 抽取 全 局 特征 。 特 别 地 ， 在 第 二 隐藏 屋 中 的 一 个 神经 元 组 全 在 输 
人 空间 特定 区 域 操作 的 第 一 个 隐藏 层 的 各 神经 元 的 输出 ， 从 而 学 习 该 区 域 的 全 局 特征 并 且 在 
别处 的 输出 为 零 。 

这 个 两 阶段 的 吉 近 过 程 在 实质 上 与 曲线 拟 合 的 样 条 播 值 技术 是 相似 的 ， 相 似 的 意义 是 指 
者 经 元 的 作用 效果 是 分 离 的 旦 输 人 空间 不 局 区 域 的 逼近 可 以 单独 地 油 整 。 一 个 样 条 就 是 一 个 
分 段 多 项 式 逼 近 的 例子 。 

Sontag( 1992) 为 在 逆 问 题 中 两 个 隐藏 屋 的 使 用 提供 进 … 步 理由 。 具 体 地 ， 考 虑 下 述 首 问题 ， 

纷 定 一 个 连 经 同 量 值 的 孙 数 f， 民 "一 民 ”， 一 个 紧 子 集 %C RR* 包含 在 f 的 像 { 即 值 域 ) 之 
H, HH >0， 寻 找 一 个 问 量 值 疯 数 go: RR, WE TERI: 

| ofu) -ul <e Hrug & 
这 个 问题 出 现在 道 运 动 学 (动力 学 ) 中 ， 此 时 一 个 系统 的 观察 状态 x(n} 是 当前 动作 ul ny 和 系 
统 前 一 状态 x(n — DRRR, ERA 
x(n) = f(x(n - 1),u(n)) 

假设 f 可 道 ， 使 得 对 于 任何 xin- 1) 我 们 可 以 把 wt n) 当 作 x(n ROR PAR ERE 
直接 运动 宇 ， 因 而 国 数 中 代表 道 运动 学 . 在 实际 条件 中 ， 我 们 的 动机 是 寻找 一 个 可 以 通过 多 
FRAT SN PR p。 从 总 的 说 来 ， 不 连续 菌 数 o 对 于 解决 道 运动 学 问题 是 必需 的 。 有 趣 
的 是 苑 使 允许 使 用 具有 不 连续 激活 函数 的 神经 元 模型 ， 一 个 隐藏 层 并 不 能 充分 保证 所 有 这 类 
了 地 问题 的 解决 ,但 是 具有 两 个 隐藏 屋 的 多 层 感 知 剖 对 于 每 一 个 可 能 的 f、 抱 和 。 是 充分 的 
(Sontag, 1992), 


4.14 交叉 确认 


芭 回 传播 学 习 的 本 珊 是 把 输入 /输出 映射 (由 标定 的 一 组 训练 样本 表示 ) 编 码 为 一 个 多 层 
感知 器 的 突 甬 权 值 和 靖 值 。 希 望 网 络 被 很 好 地 训练 使 得 它 对 过 去 进行 充分 的 学 习 就 能 对 未 来 
进行 沁 化 。 从 这 个 观点 来 看 ， 学 习 过 程 意味 着 对 这 个 数据 集合 给 出 网 络 参 数 化 的 -- 个 选择 。 
有 具体 地 ， 我 们 可 以 把 网 络 选择 问题 看 作 是 在 一 组 候选 模型 结构 (和 参数) 集合 中 选择 符合 某 个 标 
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准 的 最 好 的 一 个 。 

在 这 种 意义 下 ， 统 计 党 中 一 个 各 为 交叉 确认 的 标准 工具 提供 一 个 有 吸引 力 的 指导 原则 ? 
(Stone, 1974,1978 ) ,已 有 的 可 用 数据 集 冯 和 完 被 随机 分 荐 成 一 个 训练 集 和 一 -个 测试 集 。 这 个 训 
母 集 做 进一步 细 分 为 网 个 不 相交 于 集 : 

* 杆 计 子 集 ， 用 来 选择 模型 ， 

© 确认 子 集 ， 用 来 测试 或 看 确认 模型 - 

这 里 的 动机 是 用 一 个 本 参数 仿 计 数据 集 不 同 的 数据 集 确认 模型 。 用 这 个 办 法 我 们 可 以 用 
训练 集 来 信 计 不 问候 选 模型 的 性 能 ， 进 而 选择 "最 好 "的 一 个 。 然 而 ， 存 在 一 个 明 娩 的 可 能 性 
是 这 样 这 出 来 的 具有 最 好 表现 参数 值 的 模型 可 能 会 导致 对 确认 子 集 的 过 度 氢 合 。 为 了 防止 这 
个 可 能 性 的 出 现 ， 在 与 确认 地 集 不 辐 的 测试 集 上 测量 被 选 模型 的 泛 化 性 能 .。 

当 我 们 不 得 不 以 设计 -- 个 具有 好 的 汉化 性 能 的 天 型 神经 网 络 作为 日 标的 时 候 ， 交 丸 确 认 [203 
的 使 用 是 特别 吸引 人 的 。 例如， 我 们 可 以 使 用 交叉 确认 确定 具有 最 优 隐藏 十 经 元 数 上 月 的 多 层 
司 敌 器， 以 及 最 好 在 何 时 停止 它 的 训练 ， 正 如 在 下 面 两 小 节 中 所 述 的 那样 。 


模型 选择 


根据 交叉 确认 选择 模型 的 思想 ， 避 循 一 种 与 第 2 音 所 述 结构 风险 最 小 化 相似 的 原理 。 现 
EA ERD Peon BY Th OR PRP BY ie A EY 
ee ee 
* =-/F,' = | Fix,wiiwe W., k= 1,3,..., n (4,91) 
Bite, Ak RMF, 包含 一 簇 具 有 相似 体系 结构 的 多 层 感 知 器 ， 其 权 值 向 量 Ww 从 一 
个 多 维权 值 空间 Wi, 抽出 。 以 隙 数 或 者 假设 A = Faw), WEW, 为 特征 的 类 的 一 个 成 员 把 
输入 问 量 xx 映射 到 10.1}， 这 里 x 是 以 某 末 知 概率 P 从 输 人 空间 史 中 抽 取出 来 的 。 在 所 述 结 
风 中 每 个 多 层 感 知名 都 是 由 反 回 传播 抵 法 训练 的 ， 该 算法 负责 光 层 感知 器 参数 的 训练 。 模 型 
选择 问题 本 质 是 选择 具有 最 好 的 日 由 参数 ( 即 罕 触 权 值 和 赣 值 数目 NS. E 
精确 地 ， 假设 对 输入 向 量 x 的 期 望 啊 应 标量 是 d= 10,11， 我 们 定义 汉化 误差 如 下 ; 
e LF) = PC F(x) æ d) Wee & 
给 出 一 个 标定 的 训练 样本 集 
F = adl 
我 们 的 目标 是 选择 特定 的 假设 F(x,w)， 当 从 测试 集中 纵 定 输 人 人 寺 它 最 小 化 所 得 小 化 误差 
ef). 

Ph pe AT Bee R491 RA A a OEE, BRS EAC ON 我 们 都 可 
ARR — AAR eS EBSA ASAA WON AS RRS, TEI RR oT 
a URRE S. RAR EH 4.13 PAA eee, RH Wal DRAMER, 
Wn (NESTE FT, —P OR PE PRE We WL NR F(x， 
w; FWAR HERRER SHI 

S— Ph F OF 1 WEHREN r 决定 估计 子 集 和 确认 子 集 之 间 的 训练 数据 集 于 的 划 
分 。 了 了 由 NARRAR, -rna 个 样本 分 配给 估计 子 集 ， 剩 下 的 mm 个 样本 分 配给 确认 子 [24 
R. HUT RAS 表示， 它 用 于 训练 多 层 感 知 骼 的 一 个 嵌 套 序列 ， 抢 套 结 构 导 致 复杂 度 递增 
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的 假设 字 , ， 字 , ，… Fi BTT EO- rN 个 样本 组 成 ,我 们 认为 WD ae TAH 


Me RF W CCL ~ riN)。 


BE BHAA BS A EE 
Fo = min |e" (F) (4.92) 
EP v OMT Wes Wa (1 - rN), e (F EER N 个 样本 组 成 的 确认 于 集 3” 上 测试 时 由 
BEF, 产生 的 分 类 话 产 ， 


elo) Ea BA ESS r 以 决定 训练 集 了 在 估计 于 集 了 “和 确认 子 集 3“ 之 间 的 划 
分 。 在 Keams(1995) 描 述 的 研究 中 ， 利 用 VC 维 数 对 该 论题 进行 分 析 处 理 和 具体 的 计算 机 仿 
Rei, METRE r 的 几 个 定性 特点 : 
© 当 定 义 输入 同 量 x AB og hy a PE eR PBB ae ET EAA N 是 很 小 的 
时 候 ， 冯 及 确认 的 性 能 对 7 的 选择 相对 不 志 敏 。 
。 随 厦 目标 函数 相对 于 样本 大 小 N AES Se ie, Bet r 的 选择 在 变 叉 确认 性 能 
二 具有 更 重要 的 影响 ， 并 且 r BARAA 
"的 一 个 单一 国定 的 佣 在 日 标明 数 复 类 上 度 的 一 个 相当 太 的 范围 内 保持 近 平 最 佳 ， 
根据 Keams(1996) 报 告 的 结果 ，r 等 于 0.2 的 一 个 固定 值 看 来 是 一 个 合理 的 选择 ， 这 意味 着 
训练 集 了 的 80% RIE EAT TE, W PA) 20% RFE SE AIA TSR. 
FBG EY Be Eg Tae AE BS RY oe Ra i A, Re A Se A A fo UL! ke 
说 ， 这 样 的 看 序 是 可 能 被 建立 起 来 的 ， 例 如 ， 建 并 具有 w= p+ 9 TEREE RARS 
如 下 : 
。 p 个 具有 隐藏 神经 元 数目 按 上 ,< 有, < < 增加 的 单个 隐藏 层 的 多 层 感 知 髓 。 
。g 个 具有 两 个 隐藏 层 的 多 层 感 知 右 ;第 一 个 隐藏 层 神经 元 的 大 小 为 h',， 第 二 个 隐藏 
层 神经 元 数 日 按 AY < 天 < … "TE, 
当 我 们 从 一 个 多 层 感 知 髓 到 男 一 个 多 层 感 却 器 的 时 候 ， 自 由 参数 数量 下 有 相应 的 增加 。 上 述 
基于 妈 丸 确 认 方 法 的 模型 选择 过 程 为 我 们 提供 一 个 决定 多 层 感 天 器 中 隐藏 神经 元 数目 的 原则 性 
方法 。 尽 管 访 过程 针对 二 人 分 类 讨论 的 ， 但 是 它 可 等 价 地 应 用 到 多 层 感 知 器 的 其 他 应 用 中 。 


训练 的 早期 停止 方法 


通常 ， 用 反 向 传播 算法 训练 的 多 层 感 知 器 分 阶段 地 进行 学 习 ， 随 训练 过 程 的 进行 从 相当 
简单 的 映射 函数 实现 到 更 复 东 的 有 映射 函数 实现 。 这 通过 在 一 个 典型 情形 下 在 训练 中 均 方 误 差 
随 着 训练 回合 的 增加 而 减少 的 例子 来 证 明 ; 均 方 误差 从 一 个 很 太 的 值 开始 ,然后 迅速 地 减 
小 ， 最 后 随 着 网 络 在 误差 曲面 接近 局 部 最 小 值 的 时 候 缓 慢 地 减 小 。 由 于 以 得 到 好 的 泛 化 作为 
目标 ， 如 果 我 们 准备 通过 观察 它 自 身 训练 得 到 的 学 习 曲 线 来 断定 什么 时 候 停止 训练 最 好 ， 这 
是 非常 困难 的 。 特 别 地 ， 根 据 4.12 节 关 于 泛 化 所 说 的 ， 如 果 训 练 时 间 并 不 在 恰当 的 点 上 停 
下 来 。 网 络 结束 时 过 拟 合 训练 数据 是 可 能 的 。 

我 们 可 以 通过 交叉 确认 来 标记 过 拟 合 的 发 生 ， 为 此 训练 数据 被 分 成 估计 子 集 和 确认 子 
集 。 使 用 样本 的 估计 子 集 以 通常 方法 训练 网 络 ， 但 有 较 小 的 修改 : 训练 时 间 被 周期 性 地 停止 
( 即 每 一 个 周期 都 有 许多 训练 回合)， 并 且 在 每 个 训练 周期 之 后 都 由 确认 子 集 测试 网 络 。 具 体 
地 ， 周 期 性 的 估计 伴随 确认 (estimation-followed-by-validation) 的 过 程 是 如 下 进行 的 : 
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。 经 过 一 个 估计 (训练 ) 周 期 之 后 ， 多 层 感 知 器 的 突 触 权 值 和 偏 置 都 已 经 周 定 ， 网 络 是 
在 它 的 前 向 方式 下 运作 的 .从 而 对 确认 子 集中 的 每 个 样本 测定 确认 误差 。 
。 当 确认 阶段 完成 的 时 候 ， 佑 计 ( 训 练 ) 重 新 开始 另 一 个 周期 ， 这 个 过 程 被 重复 。 
这 个 过 程 称 作 训 练 的 早期 停止 方法 ， 

图 4-20 显示 两 种 学 习 曲 线 的 概念 形式 ， 

一 个 属于 估计 子 集 上 的 测定 误差 ， 另 一 个 属于 
确认 子 集 。 道 常 ， 模 型 在 确认 子 集 上 的 表现 并 

不 像 它 在 估计 子 集 上 的 表现 那么 出 色 ， 它 的 误 ae 
计 是 基于 估计 子 集 的 。 知 计 学 习 曲 线 在 一 般 情 。 误 关 
况 下 随 训 练 回合 数 日 的 增加 而 单调 地 减 小。 与 

此 相对 地 ， 确 认 学 习 曲 线 单调 地 递减 到 一 个 最 
小 值 ， 然 后 它 开始 随 训 练 的 继续 而 递增 。 当 我 早期 停止 点 训练 样本 
们 仅 观 察 估计 学 习 曲 线 的 时 候 ， 很 明 昆 通 过 越 
过 确认 学 习 曲 线 上 的 最 小 点 我 们 可 以 得 到 它 的 0 训练 回合 数目 

更 小 的 值 。 然 而 在 实际 上 ， 网 络 在 越过 该 点 学 | : 

习 到 的 主要 是 包含 在 训练 数据 中 的 噪声 。 这 种 “了 交 确认 的 中 其 停止 准则 示意 图 
启发 方法 意味 着 确认 学 习 曲线 上 的 最 小 点 可 用 于 停止 训练 过 程 的 合理 准则 。 

如 虹 训 练 数据 是 无 阳 声 结果 将 会 如 何 ? 我 们 如 何 为 一 个 确定 的 情况 判断 它 的 早期 停止 ? 
这 种 情况 的 部 分 答案 是 ， 如 果 鸽 计 和 确认 误差 两 者 都 不 能 同时 地 东 于 零 ,这 上 暗示 着 网 络 并 没 
有 建立 函数 的 精确 模型 的 能 力 。 在 这 种 情形 下 我 们 所 能 做 到 的 最 好 事情 是 力求 最 小 化 误差 ， 
例如 积分 平方 误差 ， 它 (大 体 上 ) 等 价 于 最 小 化 通常 的 具有 均匀 输入 密度 的 全 局 均 方 误差 。 

在 Amari et al.(1996) 提 出 的 过 氢 合 现象 的 统计 学 理论 为 训练 早期 停止 方法 的 使 用 提出 了 

告 。 这 个 理论 是 基于 集中 式 学 习 的 ， 并 日 得 到 包含 一 个 隐藏 层 的 多 层 感知 分 类 器 的 具体 计 
算 机 仿真 的 支持 。 两 种 行为 模式 同样 依赖 于 训练 集 的 大 小 ， 

P ESE ARS, RN HW, HP N 是 训练 集 的 大 小 ， 轴 是 网 络 中 自由 参 
数 的 个 数 。 对 于 这 种 行为 模式 来 说 ， 训 练 的 早期 停止 方法 通过 无 遗漏 训 练 ( 即 用 完整 的 样本 
集合 进行 训练 并 且 训练 过 程 不 被 停止 ) 确 实 提高 网 络 的 泛 化 性 能 。 这 个 结果 提示 当 N < 30 
的 时 候 过 拟 合 可 能 会 发 生 ， 并 且 交 叉 确 认 停止 训练 的 方法 的 运用 具有 实际 的 优点 。 决 定 估 计 
子 集 和 确认 子 集 之 间 训 练 数据 划分 的 参数 + 的 最 优 值 定义 为 





4 v 2-1-1 
foe = OONN) 
对 于 大 的 不 ， 这 个 公式 近似 为 
] 
ro = l- zy BX (4.93) 


例如 ， 对 于 F = 100, ra =0.07, RERE UHRE 93% 被 分 配 到 个 计 子 集 ， 而 剩 下 的 
7% BEAT AC EBA TR 

为 一 种 是 谣 近 模式 ， 这 种 模式 的 N > 30W, SFRMAARRKH, BHR 
用 训练 早期 痒 止 方法 产生 的 汉化 性 能 的 提高 是 很 小 的 。 换 名 话说 ， 在 训练 样本 的 大 小 相对 大 
于 网 络 参数 的 数目 的 时 候 ， 无 遗漏 学 习 是 邻 人 满意 的 。 
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交叉 确认 的 变 居 


于 述 变 尺 确 认 的 方法 称 为 坚持 到 底 方 法 {hold out method). 在 实际 中 还 有 另外 一 些 能 找 
到 二 们 目 寺 应 用 的 交 义 确认 的 变 体 ， 特 别 足 在 标定 样本 缺 达 的 时 收 。 在 这 样 的 情 帝 下 我 们 9 
以 通过 把 个 样本 的 可 用 集合 分 割 为 kK 个 子 集 来 使 用 多 重 交 义 确认 方法 ， 玉 > 1; 这 里 假设 
N 对 天 是 可 际 的 。 这 个 模型 在 除了 一 个 子 集 之 外 的 其 他 。 实验 1| | CE] 
TE IVR, AARAA FS Ei 
E.o XTNE ORES 天 次 试验 ， 每 次 使 用 一 个 不 同 ” 实验 2| | | | | 
的 子 集 进行 确认 ， 如 图 4-21 所 示 K=4 的 情形 。 模 型 性 





能 的 评估 是 道 过 求实 验 中 所 有 的 实验 的 确认 平方 误差 的 。 实验 3[ | C] ft 
平均 值 来 进行 的 。 多 重 交 丸 确 认 存 在 一 个 缺点 ， 因 为 模 
型 必须 训练 次 ， 它 可 能 需要 一 个 过 多 的 计算 量 ， 这 里 J EJT EJ 





BEARN R42 交叉 确认 的 坚持 到 底 方 
当 可 用 的 标定 样本 的 数目 ON 被 严格 限制 的 时 候 ， 我 法 示意 图 。 对 一 给 定 的 实验 ， 带 

们 可 以 使 用 被 称 为 “从 -" 方 法 的 多 重 交 叉 确 认 的 极 羡 形 出 影 的 数据 集 用 来 确 愉 模 埋 ， 而 

式 。 在 这 种 方法 中 ，N - 1 个 样本 用 来 训练 模型 ， 并 且 这 A 

个 模型 通过 剩 下 的 一 个 样本 的 测试 来 确认 。 这 个 实验 总 共 被 重复 N 次 ， 每 次 留 出 一 个 不 同 

的 样本 来 进行 确认 ,， 然 后 通过 确认 的 平方 误差 在 NN 次 实验 上 求 平均 。 


4.15 网 络 修 前 技术 


用 神经 网 络 解决 现实 世界 中 的 问题 经 常 要 求 使 用 一 个 相当 庞大 的 高 度 结构 化 的 网 络 。 在 
此 月 硫 下 弄 现 的 一 个 实际 间 题 是 在 保持 良好 性 能 的 同时 使 网 络 的 规模 最 小 化 ， 上 其 有 最 小 规模 
的 神经 网 络 学 习 训 练 数 据 的 独 有 特征 或 者 噪音 的 可 能 性 史 小 ， 这 样 可 能 对 新 的 数据 有 更 好 的 
沦 化 。 我 们 可 以 用 如 下 项 个 途径 中 的 一 个 来 达到 这 个 设计 日 标 ; 
， 网 络 生 长 ， 在 这 种 方法 中 我 们 以 一 个 小 的 多 层 感 知 器 开始 ， 小 到 能 实现 当前 任务 即 
可 ， 然 后 仪 当 用 这 个 多 层 感 知 器 不 能 实现 我 们 具体 的 设计 要 求 的 时 息 增 加 一 个 新 的 
隐藏 神经 元 或 者 一 层 新 的 隐藏 神经 元 。 
© 网 络 修身 ， 用 这 种 方法 我 们 以 一 个 很 大 的 共有 足够 解决 当前 问题 性 能 的 多 层 感知 器 
开始 ， 然 后 遂 过 选择 的 和 有 序 的 方式 曾 弱 或 者 消除 柴 些 突 触 权 值 来 修 前 多 屋 感 知 器 。 
企 本 节 中 我 们 集中 讨论 网 络 修剪 的 方法 。 特 别 地 ， 我 们 描述 两 种 通 近 ，--: 种 基于 "正则 
化 的 形 勾 ， 万 一 种 基于 从 网 络 中 "删除 "其 些 连接 的 形式 。 


复杂 性 ~ 正则 化 


无 论 用 何 种 方式 说 计 一 个 客 层 感知 器 ， 实 际 上 我 们 都 是 对 生成 用 于 训练 网 络 的 输入 输出 

伴 本 的 物理 现象 建立 一 个 非 线性 模型 。 就 网 络 的 设计 而 论 在 本 质 上 还 是 统计 的 ， 我 们 需要 在 
训练 数据 的 可 苇 性 和 模型 的 适应 度 之 间 寻 找 一 个 适当 的 折 中 (有 即 解 决 偏 曾 广 差 困境 的 方法 )， 
在 反 疝 传播 学 习 的 背景 下 ， 或 者 任何 其 他 的 监 叔 学 习 过 程 而 言 ， 我 们 都 可 能 通过 最 小 化 表述 
R{w) = E (W) + 2%. (w) (4,94) 
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EME EENEN EERE, ERTA F A (A) A AB. ERA 
H, Ree MORE, ZRAK AD ESR heel, FEER MS 
HEA LTA AVIA ARSE SCR. BOE (wE AE, CRIT), 
EAT BAN Sl RT 2) EBT OC ee A  , SEE, £0 (4.94) BT 
ee CY GA tt RL Br IG eC Tikhonov 正则 化 理 沦 的 简单 陈述 ; 这 个 主题 将 在 第 5 TEAR. I 
于 当前 的 讨论 ， 把 X 看 作 正 则 化 参数 句 足 够 了 ， 它 代表 着 复杂 忻 惩 罚 项 关于 性 能 度 其 项 的 相 
对 重要 性 。 当 为 过 的 时 候 ， 反 回 传播 学 习 过 程 是 大 约 昌 的 ， 岗 络 由 训练 样本 完全 确定 、 在 
力 一 方面 ， 妆 趋 于 无 和 抛 大 的 上 时候， 这 意味 着 由 复杂 性 惩 牺 所 得 全 的 约束 自身 就 可 以 具体 确 
定 网 络 ， 肌 另 一 种 说 法 就 是 训练 样本 是 不 可 靠 的。 在 权 值 豪 减 过 程 的 实际 应 用 中 ， 正 则 化 参 
煞 和 被 周子 两 个 极 病情 形 之 问 的 某 个 位 置 的 值 。 这 里 所 讲述 的 使 用 茧 杂 性 正则 北 提 高 归纳 能 
力 风 观点 是 完全 和 第 2 童 中 讨论 的 结构 风险 最 小 化 过 程 相 容 的 。 
ERREF, KER REPT AE (wiht ARRS k Brae PA} 
E(w, k) = Ê Ew) | aadi (4.95) 








n 
7| 
x EOF Ox, w) ERAKAR AR, ex) ERAR, EE RA a EH 
BOK PRS F(x,Ww) 光 滑 的 区 域 。 这 里 的 日 标 是 使 得 F(x, wR A a x EO PE BE), 
Pet ere k BK, AR F(x,w) 就 变 得 越 光 滑 ( 妈 更 少 的 复 林 度 )。 

直面 我 们 描述 和 多 层 感知 髓 的 三 种 不 同 ( 难 度 痒 增 ) 的 复杂 性 正则 化 方法 。 

EARM FETE eT FE (Hinton, 1989 ) ， 复 打 性 惩罚 项 被 定义 为 网 络 中 权 依 向量 
W 即 所 有 的 自由 参数 } 的 平方 范 数 ， 上 表示 为 


Ew) = lwl? = >) w (4.96) 
EEE e 


RHR R C oa E NE PRA BSS RRR. AAAA BO p E fh HE 
似 于 零 的 值 来 进行 的 ， 而 允许 其 他 的 权 值 保持 它们 相对 大 的 值 。 所以， 网 络 的 权 值 大 致 分 为 
MER: 那些 对 网 络 ( 模 型 ) 具 有 很 大 影响 的 权 值 和 那些 对 网 络 很 少 或 者 和 根本 没有 影响 的 权 
值 。 在 后 一 类 中 的 权 值 称 汶 多 余 权 值 。 在 不 进行 复杂 性 正则 化 的 情况 下 ， 这 些 权 值 遂 过 它们 
很 可 能 取 完 全 任意 的 数值 ， 或 为 了 得 到 训练 误差 上 的 轻微 减少 而 促使 网 络 过 度 拟 合 训练 数 
据 ， 从 而 导致 很 差 的 推广 性 能 (Hush and Horne, 1993 )。 复 杂 性 正则 化 的 使 用 鼓励 多 余 权 值 取 
得 接近 于 地 的 数值 ， 因 而 提高 泛 化 能 力 。 

在 权 值 得 减 过 程 由 ， 多 层 感 知 器 中 所 有 的 权 信 都 被 平等 地 对 待 。 这 就 是 ， 权 值 空间 中 的 
先 验 分 布 被 假设 集中 在 原点 附近 。 严 格 地 讲 ， 权 值 衰减 并 不 是 多 层 态 知 器 复杂 性 正则 化 的 正 
确 形式 ， 因 为 它 并 不 符合 式 (4.95) 的 基本 原理 。 然 而 ， 它 是 很 简单 的 并 且 在 一 些 应 用 中 看 起 





来 工作 得 很 好 ， 
KEIR ARAL PRAM ee, BAER TeX AC Weigend el al. ,1991 ) 
l (Cw dw) 
E (w) = Z Cw (4.97) 


其 中 wo 是 预先 指定 的 参数 ，w, BIAS PER MRA. BSS Ets Pee K 
营 触 连接 。 单 独 的 惩罚 项 以 对 称 的 方式 随 w/w 变化 ， 如 图 4-22 所 示 的 那样 。 当 1 让 |<, 
的 时 候 ， 对 于 该 权 便 的 复杂 性 咎 戎 (代价 ) 通 近 于 零 。 这 个 条 件 的 售 必 是 就 所 关注 的 从 样本 的 
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IN ee ma a, 





S34 AAA IE 
是 不 可 靠 的 从 而 应 该 从 网 Guha 
络 中 剔除 ， 而 另 -- 方 面 ， | 二 CA 
“tw, lew, 时， 该 权 值 的 
Batt Ti (tT) ait R 1.0 
KE 1， 这 意味 着 w, 对 反 
各 传播 学 习 过 程 是 重要 的 。 
IX FER TR BIR (4.97) 4p 
的 惩罚 项 确实 达到 确认 网 
络 中 有 重要 影响 的 罕 触 权 
值 这 个 期 望 目 的 。 同 时 注 
BAB SIR ee AA 
eS PETE Ay ACRES fal + ; 
特别 地 ， 对 于 大 的 w, E ie 
了 比例 因子 外 式 (4.97) 简 化 -5.0 40 -3.0 -20 -1.0 0 1.0 7.0 3.0 40 5.0 wn 
为 式 (4.96) 的 形式 。 图 4-22 复杂 性 钨 罚 项 (ww fo )?/[1 + Can hY JE F 省 /am 的 图 示 

Pe oe Ho, 4 (A Bl 
过 程 同 样 不 是 多 民 感 知 器 复杂 性 正则 化 的 正确 形式 ， 因 为 它 并 不 符合 式 (4.%5) 所 指定 的 描述 。 
里 然 如 此 ， 在 选择 适当 的 参数 ww 的 情况 下 ， 它 人 允许 网 络 中 的 一 些 权 值 歌 得 的 僵 比 和 用 权 值 误 
减 取得 的 值 葛 大 (Hush,1997 )。 

HiT ASE TE Moody and Rögnvaldsson( 1997) 中 ， 对 于 具有 单个 隐藏 层 和 输出 屋 上 单个 神 
PERIL Se Alas, BUMSR ADR PIE CAS eRe EM 


E (w) = D a? | w, |? (4.98) 
其 中 w, 是 输出 层 的 权 值 ，w 是 隐藏 层 第 /个 神经 元 的 权 值 身 量 ; R p 定义 为 


y ot ya asta A 
P= | oR 对 十 局 部 光滑 器 





0.6 
0.4 


G2 


(4.99) 


HER k E Fix w) XT x BRAIRE 
WTS eR Alas Se PF EM (Ee iK, BARA E ENAR RAUAS E 
Wo FRIERE ARRE, “ERE a HE: 
L 它 区 分 隐藏 层 中 和 输出 层 中 突 触 权 值 的 作用 。 
2. 它 捕获 这 两 种 权 全 集合 之 间 的 相互 作用 。 
然 面 ， 它 比 权 值 套 减 或 者 权 值 日 除 具 有 更 复杂 的 形式 ， 因 此 在 计算 复杂 雇 上 有 更 多 的 要 求 。 


基于 Hessian 矩阵 的 网 络 修 前 


这 第 二 个 网 络 修剪 方法 的 基本 思想 是 利用 误差 曲面 的 二 次 导数 信息 得 到 网 络 复杂 度 和 训练 
旗 老 性 能 之 间 的 折 中 方案 。 特 别 地 ， 构 造 误差 昌 面 的 一 个 局 部 模型 ， 解 析 地 预测 罕 触 权 倡 的 扰 
动 所 造成 的 影响 。 构 造 这 样 一 个 模型 结构 的 出 发 点 是 在 运行 点 附近 使 用 Taylor 级 数 给 出 代价 函 
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Oe Barbier, JERA F: 
E, (W+ Aw) = €,(w) + g (w)Aw + 5 Aw! HAW + OC || Aw [| 7) (4,100) 


其 中 Aw 是 运行 点 wihttiat, gwiT Ww 处 的 梯度 问 量 。Hessian RERE w 点 进行 计算 ， 
内 而 ， 为 了 正确 我 们 用 Hiw) 来 表示 它 。 在 式 (4.100) 中 并 没有 这 么 司仪 仪 是 因为 简化 记号 。 

监 求 确 愉 -组 参数 使 得 从 多 层 感知 器 上 删除 它们 而 代价 师 数 守 的 值 增 长 最 小 。 为 了 用 
具体 项 解决 这 个 问题 ， 我 们 进行 如 下 通 近 : 

1. 轰 值 逼近 。 我 全 盘 设 参数 公 在 训练 过 程 收 筑 { 即 网 络 定 完全 训练 ) 之 后 才 被 从 网 络 中 
删 竹 。 这 个 假 江 的 售 意 就 是 参数 的 取 值 为 误 益 曲面 上 一 个 局 部 最 小 或 者 全 局 最 小 、 在 这 样 一 
PHL. BEA g HARAAM AARAA. OAH eT Aw 项。 否则 显著 性 度量 
(将 在 后 边 定 义 ) 将 对 当前 问题 无 效 。 

2, 二 次 通 近 。 我 们 假设 局 部 最 小 或 者 全 局 最 小 周围 的 误差 曲面 是 近似 “二 次 的 ”"。 因 此 
同样 可 以 色 略 公式 (4.100) 中 的 更 高 次 项 ， 

在 这 两 个 假设 之 下 ， 公 式 (4.100) 被 简单 近似 为 

A€, = E(w + Aw) - E(w) ~ FAw HAwW (4.101) 


F A849 14 (Optimal Brain Damage, OBD ) it #2 (LeCun et al. ,1990b ) 通 过 更 进一步 的 假设 简 
化 这 个 计算 : 假设 Hessian ME H 是 一 个 对 角 阵 ,然而 ,在 最 优 脑 外 科 ( Optimal Brain 
Surgeon, OBS ) 过 程 ( Hassibi et al. ,1992 ) 中 并 没有 进行 这 样 的 假设 ， 因此 ， 它 包含 DBD 过 程 作 
为 它 的 一 个 特例 。 从 这 里 开始 ， 我 们 遵循 OBS 策略 。 

OBS 的 目标 是 置 一 个 宪 触 权 值 为 零 使 得 式 (4.101) 中 给 出 的 名 ,的 递增 增 量 最 小 化 。 令 w, 
(家 示 这 个 特别 的 突 甬 权 值 。 这 个 权 值 的 删除 等 价 于 条 件 


Aw, + w; = 0 
或 省 L Aw+ w, =0 (4.102) 
R, FP 1, 是 除了 第 i 个 元 素 等 于 单位 1 之 外 其 他 所 有 元 素 均 为 堆 的 单位 向 量 。 我 们 现在 
可 以 重申 OBS 的 目标 如 下 {Hassibi et al. ,1992): 


tA eK RAE Aw 最 小 化 二 次 型 AW HAW, 使 它 满足 约束 条 件 Awtu 为 零 ， 
然后 关于 下 标 ! 求 最 小 化 。 
这 里 进行 两 个 层次 上 的 最 小 化 。 一 个 最 小 化 是 当 第 i 个 权 值 向 量 置 零 后 对 仍 保留 的 突 触 


权 值 向量 进行 的 第 二 个 最 小 化 是 对 特定 被 收费 的 而 量 进行 的 。 
为 了 解决 这 个 约束 最 优化 问题 ， 我 们 首先 构建 一 个 Lagrange AT 


= > Aw HAw — AC 1) Aw + w) (4,103) 


其 中 入 是 Lagrange 乘 子 。 然 后 求 Lagrange 函数 S 对 Aw 的 导数 ， 应 用 式 (4.102) 的 约束 条 件 ， 
并 且 利 用 扼 阵 的 道 ， 我 们 发 现 权 值 向 量 w 中 的 最 佳 变化 是 


a HY (4,104) 





Aw = 一 


Lagrange 算 子 S MUR v, 的 相应 最 优 值 是 
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其 中 H” Hessian EE A, (H |, eee PSR Ci, DOCE. BER i TEN 
权 值 w: 被 删除 ， 对 Aw 进行 优化 而 得 到 的 Lagrange BS S, 称 为 四 MEH (saliency), PE 
E, Batt S RAF w, 的 删除 而 寻 笋 的 均 方 误差 (性 能 标准 ) 中 的 增长 。 注 意 显著 性 S, 
BA wi 成 正比 的 。 这 样 小 的 权利 在 均 方 误差 上 具有 小 的 影响 。 然 而 ， 从 式 (4.105) 中 我 们 看 
到 显著 性 $ 同样 是 与 着 Hessian MEH AGAR REA eR AO), ,是 小 的 ， 那 么 
其 至 小 的 权 值 也 可 能 对 上 均 方 误差 有 实质 性 的 影响 。 

在 OBS 过 程 中 ， 相 应 于 最 小 特征 值 的 权 值 被 选 为 删除 的 权 值 。 此 外 ， 剩 余 权 值 的 最 什 
变化 由 公式 (4.104) 给 出 ， 这 说 明 它 们 可 以 沿 逆 Hessian 矩阵 的 第 i 列 方向 被 校正 。 

Hassibi 等 人 在 他 们 的 论文 中 报告 在 一 些 基 准 的 问题 上 OBS 过 程 比 其 他 通过 使 用 权 值 喜 
减 的 过 程 产生 更 小 的 网 络 。 同 时 报告 OBS 过 程 应 用 于 包含 单个 隐藏 屋 和 18 000 个 权 值 的 多 
后 感知 器 NETtalk 的 和 结果， 网络 被 修 茧 到 仪 有 1 560 个 权 值 ， 这 在 网 络 的 太 小 上 有 戏剧 性 的 
减少 。 归 因 于 Sejnowski and Rosenberg(1987) 的 NETtalk 将 在 第 13 音 中 讲述 。 

计算 Hessian S2FEAUTE Hessian SHEA BOB 0BS 过 程 的 公式 基础 。 当 网 络 中 自由 参 
a 四 的 数目 很 大 的 时 候 ， 计 算 了 的 问题 可 能 是 难以 处 理 的 。 设 多 层 感 知 器 被 完全 训练 到 
误 老 曲面 上 的 局 部 最 小 ， 下 AREE Ai E 再 -的 可 控 过 程 (Hassihi et al. , 1992). 

为 了 简化 表达 ,假设 多 层 感知 器 具有 单个 输出 神经 元 。 然 后 对 一 个 给 定 的 训练 集 我们 可 
以 把 代价 函数 表示 为 


(Ww) = 5h Dy (d(n) ~ ofn))? 


其 中 oln) EA 5 个 样本 输入 时 网 络 的 实 an d Cn ) re FA AAR a neg ae, N 是 训练 集中 样 
本 的 总 数 。 输 出 o EAA ARRA 

oln) = F(w,x) 
其 中 OF Je & 2 eg Se a A Sa CY ea, x A, ween Ae. 
因此 多 对 ww A — Bp pee wy 





E n 
= -- 7 D ALn?) a(n) — o(n)) (4.106) 
名 ,对 多 的 二 阶 导数 或 者 Hessian $5 [4 E 
YS. 
H(N} = Fat 
2 让 ee 2E) d a Few) a(n) B o(n)) | 
{4.107} 


在 这 里 我 们 强调 了 Hessian 矩阵 对 训练 样本 大 小 N 的 依赖 性 。 

在 网 络 古 被 完全 训练 的 假设 下 ， 即 代价 孙 数 和 ,被 调整 到 误差 曲面 的 一 个 局 部 最 小 值 ， 
ti otn) 近 似 于 dtn) 是 合理 的 。 在 这 个 条 件 下 我 们 可 以 忽 暗 第 二 项 ， 这 样 公式 (4.107) 的 扯 
近 为 
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HCN) = 4 5}{2P ) (sD) (4.108) [224] 


aw 
AS mits, EM xl te 
Eln) = L d F(w,x(n)} 
= = Fa 
它 可 以 通过 4.10 站 所 还 的 过 程 玉 计算 ， 然 后 我 们 可 可 以 用 递归 的 形式 重 写 公式 (4.108) By 
F: 


] 





(4.109) 


Hí n} = DIEET CE) = H(n-1)+EE (n), n= L200, 0410) 


SSCP RUA EER NERONE AL FAG AEE 它 也 称 为 Woodbury 等 式 ， 
> 起 和 BB 表示 由 关系 
A = B’ + CDC’ 
7E MERE, HIP CH DEAF TEM. WRIN, EE A 的 道 定义 为 
A` = B- BC(D+ C'BC)'C'B 
FRC. 110) PETER ERITA 
A = Hin), B” = H{n -1),C = E(n).D= 1 

KE HAE RE S aa F Hessian $6 RAEI iF At. 

i i H'(n - DECODE AA ' (Cn - t) 

H (n)= H (nrn-l1)- 148 (nH Cn — DEC) 

注意 式 (4.111) 中 的 分 母 是 一 个 标量 ; 因此 直接 计算 它 的 倒数 。 这 样 ， 给 定 Hessian EK 
EEH (n-1), RIASAN EEE ECR RRMA n 个 样本 呈现 后 的 更 新 值 
H (nm)。 这 个 递归 计算 将 继续 到 N 个 样本 的 整个 集合 被 计算 为 止 。 为 了 初始 化 这 个 算法 我 
们 需要 使 H (0) 很 太 ， 因 为 根据 式 (4.111) 它 是 持续 地 减少 的 。 这 个 要 求 可 以 通过 如 下 设 定 
来 满足 ; 





(4.111) 


H'(0) = SI (4.112) [as 
RP Se PER, 工 是 单位 托 阵 。 这 个 初始 化 的 形式 保证 H (On) A EIEE. 6H 
啊 随 着 越 来 越 多 的 样本 出 现在 网络 中 而 变 得 逐渐 减少 。 
表 4-6 是 脑 外 科 算 法 的 一 个 小 结 (HRassihi and Stork, 1992), 
家 4-6 最 忧 脑 外 科 算 法 小 结 
1. 训练 给 定 多 层 感 知 器 至 景 小 均 方 误 益 . 
2. 利用 4.10 节 所 述 过 程 计 算 癌 量 
Fin) = aw 


Fw BH RASA E v HS eRe AR, xn Re AR. 
9. P ARHAR OIE Hessian SPE H! . 
4, 寻找 相应 十 最 小 显 黄 性 的 i: 


1 aF(wixCa)) 


TH, 

PCH"), BAAR, OPK. WEB S wh HE. AMR AE w;， 并 且 执 行 第 4 步 ， 
否 刚 ， 转 第 5 步 。 
5. 通过 应 用 如 下 调整 性 正 网 络 中 所 育 的 宪 钥 权 代 ; 


Aw 


5, = 


= - ot 4, 
i: ee 
op 2, 
6. SPRUE A Se PR RRC AB RSE eS HA. CE HES 
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4.16 上 反 向 传播 学 习 的 优点 和 局 限 


反问 传 市 算法 作为 指导 多 层 感 邢 伦 训练 的 最 流行 的 算法 而 出 现 。 基 本 上 ， 它 是 一 :个 梯 技 
(村 数 ) 的 技术 而 不 是 一 个 最 优化 技术 。 芭 同和 传播 只 有 了 两 个 明显 的 性 质 : 

” 局 部 计算 简单 。 

© 尼 实 现 权 值 空间 的 随机 梯度 下 降 ( 对 于 突 触 权 值 更 新 按 一 个 模型 接 一 个 模型 的 方式 )。 

多 层 感 孝 理 景 下 的 上 及 向 传播 学 习 的 这 两 个 局 性 导致 它 的 优点 种 缺点 。 


iE Fe AL 


太 问 传播 算法 是 依靠 局 部 计算 来 发 现 神经 网 络 信 息 处 理 能 力 的 一 个 连接 论 者 范 词 的 便 
了 于。 计算 限制 的 这 种 形式 称 为 态 部 的 束 ， 它 是 指 单个 神经 元 实现 的 计算 惟一 受 那 些 与 它 有 物 
理 按 甬 的 神经 元 的 影响 。 广 人工 神经 网 络 的 设计 中 提 介 利用 局 部 计算 有 三 个 主要 的 理由 : 

1. 实现 局 部 计算 的 人 芽 神 经 网 络 常 常 支 持 生 物 神 经 网 络 的 类 比 。 

2. 局 部 计算 的 使 用 允许 极 大 地 减 电 由 于 硬件 错误 所 导致 的 性 能 下 降 ， 因 此 为 容错 网 络 
设计 提供 基础 。 

3. 局 部 计算 支持 使 用 作为 人 工 神 经 网 络 实现 的 有 效 方法 的 并 行 体系 结构 。 

按 相 反 的 顺序 来 讨论 这 三 点 ， 第 三 点 在 反 向 传播 学 习 中 被 完全 验证 。 特 别 地 ， 反 向 传播 
算法 已 经 被 许多 研究 者 在 并 行 计算 机 上 成 功 地 实现 了 ， 并 且 已 经 开发 用 硬件 实现 多 层 感 知 占 
的 VLSI 体系 结构 (Hammerstrom,1992a,1992b)。 正 如 闪 Kerlirzin and Valletf 1993) 的 研究 中 所 述 
的 那样 ， 第 二 总 的 验证 可 由 反 向 传播 算法 的 应 用 中 采取 基 些 防范 措施 而 得 到 。 对 于 第 一 点 ， 
和 尽 四 传播 学 习 的 生物 似 识 性 有 关 ， 基 于 如 下 理由 它 受 到 严重 的 质疑 (Shepherd, 1990b; Crick, 
1989; Stark, 1989) - 

1 . FE—F BFR AL as Tf LS cD AND OR a) a REY BR Ae A EL SL ey a E e A o 
然而 ， 在 真实 的 神经 网 络 系 统 中 ， 神 经 元 经 常 表现 为 … 个 或 者 另 一 个 。 这 就 是 在 神经 网 络 模 
型 中 所 作 的 不 真实 的 假设 中 最 严重 的 一 个 。 

2. 芋 一 个 多 后 壁 知 钥 中 ， 忽 上 略 了 倚 和 尔 莹 的 和 其 他 类 型 的 全 局 通信 的 炎 型 。 和 在 真实 的 神 
经 元 系统 中 ,这些 全 局 道 信 对 于 例如 激励 、 注 意 和 学 习 的 状态 设置 功能 是 关键 的 ， 

3. 在 反问 传播 学 习 中 ， 一 个 突 触 权 值 是 通过 一 个 前 突 触 活动 和 一 个 独立 于 后 突 触 活动 
的 误差 (和 学习) 信号 来 修改 的 。 从 神经 生物 学 证 据 表 明 是 另 一 种 情况 。 

4. 从 神经 生物 学 的 角度 来 看 ， 反 四 传播 学 习 的 实现 要 求 信 息 洪 着 轴 突 迅速 地 反 向 传播 。 
在 脑 中 洋 际 发 生 的 这 样 操作 看 起 来 简直 是 不 可 能 的 。 

5. 反问 传播 学 习 意 味 着 一 个 “教师 ”的 存在 ， 这 在 脑 中 将 假设 存在 一 个 具有 特殊 性 质 的 
仲 经 元 集合 。 这 样 的 神经 元 的 存在 在 生物 学 上 是 难以 置信 和 的。 

然而 ， 这 些 神经 生物 学 上 的 疑虑 并 没有 减少 反 向 传播 学 习作 为 信息 处 理 的 -一 个 工具 在 工 
柱 上 的 妊 要 性 ， 这 通过 它 在 无 数 大 不 相同 的 领域 中 的 成 功 应 用 得 到 了 证 明 、， 其 中 包括 神经 生 
和 愧 现象 的 仿真 在 内 (例如 ， 见 Robinson{1992))。 


特征 检测 
正如 4.9 节 所 讨论 的 那样 ， 通 过 反 向 传播 算法 训练 的 多 层 感知 器 的 隐藏 神 经 元 作为 特征 
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MBS eee, ASR RATE Pe REI ETE il 
A ay te “Ay ( Rumelhart et al. ,1986b;Cottrel et al. , 1987). 图 4-23 表明 对 于 使 用 单个 隐藏 
层 的 多 层 感 知 器 情况 下 这 是 如 何 完 成 的 。 网 络 构 形 满足 如 下 的 结构 要 求 ， 正 如 图 4-23a 表明 
的 那样 : 

。 输入 和 输出 层 神 公斤 数目 具有 相同 的 大 小 严 。 

*。 Bee Ea M -hF mo 

" 网络 是 完全 连接 的 。 





输入 信号 六 X MAS AMBIT A 


b) Cc) 


4-23 
PT pe b) 复 制 网 络 
监督 囊 练 的 方 框图 “作为 解码 器 的 复制 器 网 络 部 分 
一 个 给 定 的 模式 x 同时 作为 输入 层 的 刺激 和 输出 层 的 期 望 响应 。 输 出 层 的 实际 啊 应 名 是 
打算 用 作 x 的 "估计"。 通 过 常用 的 方法 使 用 反 向 传播 算法 训练 网 络 ， 估 计 误 差 同 量 (x - 24 F 
为 误差 信号 处 理 ， 如 图 4-23b 所 示 。 这 个 训练 是 在 无 监督 情形 下 完成 的 ( 即 不 需要 教师 )。 借 
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MEERA at TT At Ee RRA. A EAI REAR 4 VA SC SRS A 
入 模式 的 -个 编码 形 上 不 ， 用 s eos, EAE TERRE A PE, MO 4-23a 所 示 。 事 实 
=) WERKE TR AER 0 Sy E A A SPA a A, x HE RCD 
SEEMS), FETE aS SM A TA cl a Sh ae, WME 4-23c Ro PLE, MEAN 
Mist i RNs WAE., SRT AAS M 与 输入 /输出 层 大 小 m 相 比 越 小 ， 
那么 图 4-230 的 结构 作为 - -个 数据 压缩 系统 的 作用 就 越 大 下 。 


及 向 传 播 算法 训练 的 多 层 感 知 器 自身 表明 是 . -个 邮 穴 sigmoid 函数 ， 在 单个 输出 的 
TH? FARE A 
F(ix,w) = cl Dg Zwol ol Siwi.) ))) (4.113) 


其 中 pOH H sigmoid WOR PAK, ww 是 从 最 后 个 隐藏 导 的 神经 元 到 单个 输出 神经 
SARE, PRESETS SE he RA, x, 是 输入 向 量 x 的 第 i PSS. RAE nn 
小 突 甬 权 值 的 完整 集合 ， 上 其 排列 顺序 首先 技 屋 。 然 后 接 每 层 中 的 神经 元 ， 最 后 按 神经 元 中 的 
党 触 。 去 (4.113) 中 区 和 人 非 线性 函数 的 设计 在 经 典 通 近 论 中 是 不 常见 的 。 正 如 4.13 节 讨 论 的 
它 是 一 个 通用 通 近 器 。 

(IBA. RRS: SARE. AK RAO 
E BR SC AS) E ERALAR RA h 8 Se PRE AR AN - 输出 映射 的 导数 。 在 Homik 
et al. (1990) PIPER Se PAAR EAA. Sci, WHA SIR RIESE OP aR 
KS, FATE ARTES) ERP) AS TA SB A. Homik 等 人 报告 的 逼近 结果 提供 
J VARVARA A SE PRA BS EE 


计算 的 效率 


算法 的 计 彰 复杂 度 通 常 是 用 乘法 、 加 法 的 次 数 和 它 的 实现 所 涉及 的 存储 量 来 衡量 的 ， 如 
溃 了 量 所 讨论 的 那样 。 一 个 学 习 算 法 从 -次 先 代 到 下 一 次 选 代 ， 音 它 计算 复杂 度 更 新 的 可 调 
整 参 数 的 数目 是 多 项 式 的 ， 我 们 就 说 这 个 算法 是 计算 有 效 的 。 在 这 个 基础 上 ， 它 也 可 以 说 是 
反 丫 传播 在 法 是 计算 有 效 的。 特别 地 ， 在 使 用 它 进行 包含 全 部 的 突 触 权 值 政 { 包 括 偏 置 ) 的 
多 层 感 州 带 的 训练 中 ， 它 的 计算 复杂 度 在 V 中 是 线性 的 。 反 向 传播 算法 的 这 个 重要 性 质 训 
以 通过 检查 如 4.5 节 所 述 的 完成 前 向 通过 和 反 向 通过 所 涉及 的 计算 而 容易 得 到 证 明 、 在 前 向 
通过 中 ， 计 算 涉 及 的 突 触 权 值 是 那些 网 络 中 不 同 神经 元 的 诱导 局 部 域 所 属 的 权 值 。 这 里 我 们 
从 式 (4. 竹 ) 看 到 这 些 计算 对 网 络 的 突 触 权 值 是 线性 的 。 在 反 向 通过 中 ， 涉 及 突 触 权 值 的 仅 有 
的 计算 是 那些 分 别 由 式 (4.46) 和 {4.47) 所 述 的 属于 (1) 隐 藏 神经 元 的 局 部 梯度 ， 和 (2) 突 秀 权 
但 日 丸 的 于 新。 在 这 里 我 们 同样 可 以 看 到 这 些 计 算 对 网 络 的 突 触 凤 值 全 部 是 线性 的 。 因 此 得 
出 绽 论 ， 上 反问 传播 算法 的 计算 复杂 度 对 多 ERER, MEE OCW). 


Fe BE SP ET 


从 合用 反 癌 传播 学 习 中 得 刘 的 另 一 个 计算 上 的 好 处 是 它 提 供 ~- 个 有 效 的 方法 ， 通 过 它 我 
们 可 以 进行 由 这 个 算法 实现 的 输入 输出 映射 的 灵敏 度 分 析 。 输 入 输出 映射 函数 中 关于 一 个 
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« _ OFIF 
Su = Joly (4.114) 


SR Ae RP ET Be ie] Pe RA A) RE, SBR (Ww) 为 网 络 实现 的 输入 输出 映 
Bs won PE G HITA R RAA BL Be Æ 4.10 RTE T pK Fiw) 
对 权 值 向 量 w PRAT ie SRE ET eT ER, Riki, Reese (4.81), (4.83) 
ATK (4.114), FAB eS A RAS APE RA RW BR y 是 线性 的 。 
这 种 线性 关系 与 问题 的 帘 触 权 值 在 计算 链 中 出 现 的 位 置 无 关 。 


鲁 棒 性 


在 第 3 章 中 我 们 指出 ，LMS 算法 中 能 量 小 的 扰动 只 会 引起 小 的 估计 误差 ， 从 这 个 角度 来 
看 蕊 是 彰 棒 的 。 如 果 男 有 的 观察 模型 是 线性 的 ，LMS 算法 是 一 个 H” 最 优 滤波 器 (Tassibi et 
al. ,1993,1996)。 这 意味 着 LMS 算法 最 小 化 由 估计 误差 的 扰动 带 来 的 最 大 能 量 增益 。 

从 为 一 方面 来 看， 如 果 辐 有 的 观察 模型 是 非 线 性 的 ，Hassibi 和 Kailath( 1995) 讶 明 反 向 传 
RAE A? 最 优 滤波 莫 。 这 里 使 用 的 “局 部 ”术语 是 指 反 向 传播 算法 中 使 用 的 权 值 向 量 
初始 值 充 分 菲 近 权 值 向 量 的 最 优 值 w 以 确保 该 算法 不 陷入 一 个 坏 的 局 部 最 小 中 。 用 概念 性 
的 说 法 ， 看 到 LMS 和 和 反 向 传播 算法 属于 同一 类 型 的 ”最 优 滤波 器 是 令 人 人 满意 的 。 


Wa HE 


反 向 传播 算法 在 权 值 空间 中 对 于 误差 曲面 上 的 梯度 使 用 “瞬时 估计 ”。 因 此 该 算法 在 本 质 
上 和 证 随机 的 ; 也 就 是 说 ， 它 在 谋 差 曲面 上 具有 遂 过 在 真实 方向 附近 的 锯齿 形 路 强 趋 于 最 小 点 
的 倾向 。 其 实 ， 反 癌 传 播 学 习 是 最 初 由 Robbins 和 Monrof1951) 提 出 的 所 谓 随 机 通 近 的 统计 学 
AEH THM, Alt, EMA FRB. RONDA 
( Jacobs, 1988 ) ， 

L 误差 曲面 沿 站 一 个 权 值 方 同 是 相当 平坦 的 ， 这 意 昧 着 误差 曲面 对 这 个 权 值 的 导数 在 
妆 量 上 是 很 小 的 。 在 这 样 的 情 涡 下 ， 应 用 于 这 个 权 值 的 调整 是 很 小 的 ， 因 此 在 网 络 涡 差 性 能 
上 产生 重大 的 降低 可 能 要 求 这 个 算法 的 多 次 和 迭代。 或 男 一 方面 ， 误 差 曲 面 沿 蔷 一 个 权 值 方向 
是 高 度 闪 曲 的 ， 在 这 种 情形 下 误差 曲面 对 该 权 值 的 导数 在 数量 上 是 很 大 的 。 在 这 第 二 种 情况 
了 下， 应 用 于 该 权 值 的 调整 是 很 大 的 ， 这 可 能 会 导致 该 算法 越过 误差 曲面 的 最 小 点 。 

2. 贷 梯 度 器 量 的 方向 ( 即 代 和 价 函数 对 权 值 向量 的 负 导 数 ) 可 能 指向 远离 误差 曲面 的 最 小 
E: 因此 应 用 于 权 仁 的 调整 可 能 导致 算法 往 错 误 的 方向 进行 。 

因此 ， 反 辣 传 播 学 习 的 收 襄 速度 懒 和 柯 于 相当 缓慢 ， 这 可 能 使 得 计算 起 来 非常 困难 。 根 据 
Saarinen et al. (199D 的 实验 研究 ， 反 癌 传 播 算法 的 局 部 收 伍 速度 是 线性 的 ,这 通过 Jacobi 4 
阵 和 Hessian 矩阵 几乎 是 秩 亏 损 的 面 得 么 让 明 。 这 些 都 是 神经 网 络 训 练 问题 固有 的 病态 性 的 
fiwa Saarinen 等 人 用 两 种 方法 之 一 解释 反 向 传播 学 习 的 线性 局 部 收 伍 速度 ; 

© 较 高 阶 的 方法 要 求 更 多 的 计算 量 未 必 收 敛 得 更 快 ， 在 这 个 意 闵 上 反 向 传播 (梯度 下 

降 ) 是 可 接受 的 |; 
© 大 规模 神经 网 络 的 训练 问题 的 实施 有 如 此 大 的 固有 困难 以 至 了 于 没有 任何 监督 学 习 的 
各 略 是 可 行 的 ， 而 使 用 如 像 预 处 理 的 其 他 方法 可 能 是 必需 的 。 
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E 4.07 节 中 我 们 更 全 面 地 探 装 收 笋 问题 ， 并 县 在 禹 8 章 中 探讨 输入 的 预 处 理 问 题 。 
局 部 其 小 值 


对 反问 传播 算法 性 能 造成 影响 的 误差 曲面 的 另 一 个 特点 是 除了 全 局 最 小 值 之 外 的 局 部 最 
小 值 { 即 丽 立 四 权 ) 的 出 现 。 由 于 反 向 传播 学习 基本 上 是 一 个 扑 让 技术， 因此 它 存 在 隐 入 局 部 
虞 小 值 的 危险 ， 此 奸 突 触 权 值 的 每 个 微小 变化 都 引起 代价 隙 数 的 增长 。 和 但 宇 权 值 空间 的 别 的 
某 个 地 方 存 在 为 外 一 个 突 触 权 值 的 集合 ， 它 的 代价 活 数 的 值 比 在 网 络 被 停止 处 的 局 部 最 小 值 
更 小 :很 明显 不 希望 使 学 习 进 程 在 局 部 最 小 值 处 停止 ， 特 别 是 如 果 它 是 处 于 离 全 局 最 小 值 很 
远 的 话 。 

反 回 传播 学 习 中 局 部 最 小 值 的 问题 在 Minsky and Papert 1988) 经 典 著作 的 扩充 版 本 的 结 
请 中 宜 担 了 出 来 ， 结 语 的 笔 大 部 分 注意 力 都 集中 讨论 分 为 两 册 的 Rumelhart 和 McClelland 
(1986) fF; «Parallel Distributed Processing). TERRA BAIA 8 章 中 声称 对 于 反 向 传播 学 习 来 
广 ， 陷 人 一 个 局 部 最 小 值 在 一 个 实际 癌 题 中 是 罕见 的 。 Minsky 和 Papert 通过 指 山 模式 识别 整 
个 历史 过 程 的 相反 表现 进行 反驳 。Gori 和 Tesi(1992) 描 述 一 个 简单 的 例子 ， 尽 管 模 式 中 一 个 
非 线性 的 可 分 集合 能 够 通过 选择 具有 单个 隐藏 层 的 网络 进行 学 习 ， 但 是 反 加 传播 学 习 还 是 可 
能 在 一 个 局 部 最 小 值 处 停止 =- 。 


规模 


在 原由 上 上， 请 如 由 反 向 传播 算法 训练 的 多 层 感 知 器 之 类 的 神经 网 络 提 供 通 用 计算 机 器 的 
洲 在 可 能 。 然 而 ， 避 充分 实现 这 种 法 能， 我 们 必须 克服 规模 (scaling) 问 题 ， 它 是 指 随 计算 在 
务 福 大 小 和 复 杀 性 上 的 增加 网 络 表 现 的 优 省 (如 由 训练 所 需 时 间 和 可 得 到 的 最 优 泛 化 性 能 来 
衡量 ) 的 问题 。 在 度量 计算 任务 大小 和 复杂 度 的 许多 可 能 的 办 法 中 ， 由 Minsky 和 Papert 
(1969, 1988) Æ “ATS Tl BT (predicate order) 提 供 了 最 有 用 和 最 重 更 的 标准 。 

为 了 解释 一 个 谓词 意味 着 什么 ， 令 VOX) BR TARA RAN RR. BERR 
WOX) MP MaA 0 Al 1, RAHIRA AiR (FALSE) RA (TRUE), BUA 于 (五) 是 一 个 谓 
同 ， 凤 一 个 可 变 的 陈述 ， 其 真 和 假 恢 赖 丁 变 量 工 的 选择 。 例 如 ， 我 们 可 以 写 出 

l Baie X EAn 
Yaar = 0 若 图 形 X 不 是 一 个 国 ee 
使 用 谓词 的 思想 Tesauro and Janssens(1988) 实 现 了 一 个 涉及 使 用 和 由 反 向 传播 算法 训练 的 多 层 
感 菇 器 来 学 习 计 算 奇 从 函数 的 实验 研究 。 奇 信函 数 是 定义 如 下 的 布尔 谓词 : 
I E | | 是 奇数 
Tarmi X) = f 二 出 (4,116) 
它 的 阶 数 等 于 输入 的 个 数 。Tesauro and Janssens 进行 的 这 个 实验 显示 ， 网 络 学 习 计 算 奇 慢 函 
狼 所 需 的 时 间 与 输入 个 数 { 即 计算 的 谓词 阶 数 ) 呈 指数 关系 ， 并 且 使 用 反 向 传播 算法 学 习 任 意 
复杂 的 一 数 的 计划 可 能 是 过 分 乐观 的 。 

一 般 认 为 对 一 个 多 层 感 知 占 进行 完全 连接 是 失策 的 。 因 此 ， 在 此 背景 下 ， 我 们 可 以 提出 
如 下 问题 : 给 定 一 个 不 应 被 完全 连接 的 族 层 感知 器 ， 网 络 的 突 和 触 连 接 将 如 何 分 配 ? 这 个 问题 
在 小 规模 的 应 用 情况 并 不 是 主要 考虑 的 问题 ， 但 它 对 利用 反 向 传播 学 习 解决 现实 世界 中 大 规 
模 的 问题 的 成 功 应 用 是 至 关 重 要 的 。 
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DFE FA Bo [Fl wel Tg TD BA E FR RT A TAT CY SB Sea at EDA ELD 
PAREN IS ARs AAAI RAPE. 特别 由 ， 网 络 体 系 结构 和 加 于 网 络 突 触 检 
值 上 的 约束 应 该 这 样 设计 使 得 关于 任务 的 先 验 知识 合并 到 网 络 的 组 成 中 去 。 这 种 设计 策略 在 
4.19 节 中 在 关于 光学 字符 识 齐 的 问题 中 说 明 .。 


4.17 上 有 反 向 传播 学 习 的 加 速 收 钱 


在 闻 一 节 中 阐明 了 反 向 传播 算法 收敛 速率 可 能 缓慢 的 主要 原因 。 本 节 我 们 讨论 -- 些 得 到 
的 局 发 它们 为 思考 如 何 通 过 学 习 率 的 调整 以 肌 速 反 向 传播 学 对 的 收 黎 提供 有 用 的 方针 。 具 
体 的 局 发 如 下 {Jacobs,1988); 

月 发 1 代价 国 数 的 每 一 个 可 调整 网 络 参 数 都 应 具有 自己 的 学 习 率 参数 ， 

在 这 星 我 们 注意 反 向 传播 算法 可 能 缓慢 地 收敛 是 因为 使 用 周 定 的 学 习 率 参数 不 能 适合 于 
攻关 曲面 地 每 一 部 分 。 换 名 话说 ， 一 个 罕 触 权利 调节 的 通 宕 的 学 习 率 参数 是 不 必 适 宵 于 网 络 
PRAE A EE WY). 启发 1 通过 为 网 络 中 每 个 可 调节 的 突 触 权 值 (参数 ) 指 定 木 同 的 学 
习 率 参数 认 知 这 个 事实 。 

局 发 2 每 一 个 学 习 举 参数 者 应 该 被 允许 在 每 次 选 代 中 取 不 同 的 值 。 

抽 痢 单个 权 值 维 的 不 同 区 成 ， 误 益 曲 面 通常 有 不 同 的 行为 。 为 了 适应 这 种 变化 ， 启 发 ? 
规定 字 习 参数 在 每 次 选 代 中 不 同 。 有 趣 的 是 ， 这 个 启发 在 线性 单元 的 情形 中 被 明确 地 建立 
(Luo, 1991 ) 。 

局 发 3 当代 价 函 数 对 一 个 突 触 权 值 的 导数 在 算法 中 几 次 连续 人 达 代 具 有 相同 的 代数 符号 
的 时 候 ， 这 个 特殊 权 值 的 学 习 率 参数 应 该 被 增加 。 

在 权 值 空间 中 当前 运行 点 所 处 误差 曲面 沿 一 个 特别 的 权 值 维 可 能 是 相当 平坦 的 部 分 、 这 
可 以 寻 致 代 谷 琐 数 关于 权 值 的 导数 ( 即 误差 轩 面 的 梯度 ) 在 连续 几 次 算法 灶 代 中 保持 相同 代数 
符号 ， 风 此 指向 相同 的 方向 。 启 发 3 规定 在 这 样 的 情形 下 可 以 通过 适当 增加 学 习 率 参数 来 减 
少 通 过 旋 差 曲面 的 平坦 部 分 所 需 的 迁 代 次 数 。 

局 发 4 SANT RT SE RA SR RR S OT ESE ILIKE RA 
的 时 候 ， 该 权 值 的 学 习 率 参数 应 该 减少 。 

当 在 权 值 空间 中 当前 运行 的 点 所 位 于 误差 山 面 的 部 分 洪 所 讨论 的 权 值 维 呈 现 峰值 和 深谷 
( 即 曲 面 高 度 弯曲 ) 的 时 候 ， 代 价 耳 数 对 该 权 值 的 导数 在 这 次 迁 代 到 下 次 近代 时 政变 它 的 符号 是 
可 能 的 。 为 了 肪 止 权 值 调 书 出现 振荡， 启发 4 规定 该 特殊 权 值 的 学 习 率 参数 应 该 适当 地 减少 。 

但 得 注意 的 是 ,根据 这 些 启 发 对 每 个 突 触 权 值 使 用 不 同 的 和 随时 间 变 化 的 学 习 率 参数 ， 
从 基本 上 改变 了 反 疝 传播 算法 。 特 别 地 ， 补 修改 后 的 算法 不 再 进行 最 陡 下 降 方向 的 搜索 。 更 
准确 地 说 ， 应 用 于 突 触 权 值 的 调整 是 基于 1) 误差 曲面 对 权 值 的 偏 导数 ， 和 和 (2) 在 权 杆 空 闻 当 
前 运行 扎 上 误差 曲面 在 沿 不 同 权 值 维 的 早 率 估计 。 

此 外 ， 所 有 4 个 局 发 都 满足 局 部 约 东 ， 这 是 反 向 传播 学 习 的 固有 特征 。 不 幸 的 是 ， 对 局 
部 约束 的 坚持 限制 了 这 些 启发 的 领域 ， 因 为 存在 它们 不 能 工作 的 误差 曲面 。 然 而 ， 根 据 这 些 
局 发 对 反 向 传播 算法 的 修改 确实 具有 实用 价值 中， 


4.18 作为 最 优化 问题 看 待 的 有 监督 学 习 
在 本 节 用 一 种 与 前 面 几 节 讨论 有 很 大 不 同 的 关于 有 监督 学 习 的 观点 。 特 别 地 ,我 们 把 多 
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层 感 邯 峰 的 监督 训练 辕 作 是 一 个 数值 最 优化 问题 ， 在 这 个 背景 下 我 们 首先 指出 使 用 有 有 监督 学 
习 的 多 层 感 和 器 的 误差 曲面 是 党 甬 权 值 同 量 w 的 高 度 非 线性 函数 。 令 和 {WwW} 表示 在 训练 样本 
上 平均 的 代价 录 数 。 使 用 Taylor 级 数 在 活 差 曲面 当前 点 wi RITT AER En Ww), A 
HH, WMCA. 100) PIA, CER SARI n 的 形式 : 
€,, (wha) + Aw(n)) = (wn)) +g (n)Awln) + 5 Aw" (n)H(n)Aw(n) 
+ (1K A RI) (4,117) 
Baia a 
H(n) 是 局 部 Hessian SOM, EMA 
a 下 CW) 
Hin} = 一 Sw 


ERREFE RRS, (WHEE A Pht 
4: LA he Heh A OS AR BE PP REY AY RE, EP TS Ae owe RA a 
Awl i) iE MY 


(4.118) 








w= wi nt 


(4.119) 








We win) 


Awin) =- ngin) (4.120) 
其 中 1 为 学 习 率 参数 。 事 实 上， 最 陡 下 降 方向 方法 是 在 运行 点 w(n) 局 部 邻 域 对 代价 函数 的 线 
Tava ETA, ARAM, ERB ETE gln) 作 为 关于 误差 曲面 局 部 信 
奶 的 惟一 来 源 。 这 个 限制 具有 一 个 右 利 的 效果 ， 实 现 的 简单 人 性。 不幸 的 是 ， 它 同样 具有 一 -个 不 
利 的 影响 : 缓慢 的 收 伍 速度 ,特别 是 在 大 规模 问题 的 情形 下 这 是 令 人 烦恼 的 。 在 权 值 更 新 的 公 
式 中 包 舍 动量 项 是 使 用 误差 曲面 一 阶 信息 的 大 胆 尝试 ， 这 是 具有 某 些 帮 助 的 。 然 而 ， 由 于 在 必 
顷 由 设计 者 "调整 "的 参数 列表 中 增加 一 项 ， 它 的 使 用 使 得 训练 过 程 的 管理 更 费时 间 。 
为 了 使 多 层 感知 器 的 收 合 性 能 有 显著 的 改善 (与 反 向 传播 学 习 相 比 );， 必 须 使 用 训练 过 程 
的 珊 阶 信息 。 我 们 可 以 通过 调用 误差 曲面 在 当前 点 w(n) 局 围 的 二 次 通 近 来 实现 。 然 后 从 式 
《4.117) 可 以 发 现 应 用 于 突 触 权 值 向 量 wn ) 的 调整 量 的 最 优 值 Aw n) h FtS H: 
Aw’ (n} = H'Cadetn) (4,121) 
其 中 H (a) Hessian 矩阵 H(n) 的 道 ， 假设 它 是 存在 的 。 式 (4.121) 是 Newton 方法 的 核心 。 
如 果 代 价 孙 数 儿 (Ww) 是 二 次 的 ( 即 式 (4.117) 中 的 三 次 和 更 高 次 项 为 零 )， 那 么 Newton 方法 一 
IA RRA AWE. SAM, Newton 方法 对 多 层 感 知 器 的 有 监督 训练 的 实际 应 用 受到 
如 下 因素 的 阻碍 ; 
© ERKI A Hessian PEA H (na), HABER LE RAH. 
”为 了 使 H nÆ AR, Hin ea RIERA. HA) WIECH, 4 
前 后 Win) 周围 的 误差 曲面 可 以 挫 述 为 “ 凸 侯 状 ”"。 不 地 的 是 ， 并 木 能 保证 多 层 感知 
器 误差 曲面 的 Hessian SORE EAE SIR ERIE. ME, GRA Hessian JE ERS Sil By 
fe 4 [ala ROSE AN a A) H 的 列 都 线性 无 关 ) ， 这 是 由 于 网 络 训 练 问 题 中 固有 的 病 
态 性 所 造成 的 (Saarinen et al. ,1992 ); 这 只 会 使 得 计算 任务 更 加 芽 难 。 
© (Ut eas, (ETEL, Newton 方法 的 收 伍 性 得 不 到 保证 ， 这 使 得 它 不 
运 合 于 训练 多 层 感 知 髓 。 
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为 了 克服 其 中 基 些 团 难 ， 我 们 可 以 使 用 拟 Newton 方法 ， 它 仅仅 要 求 和 梯度 向 量 g — Matt 
值 。 这 种 Newton 方法 的 修正 不 经 过 计算 矩阵 的 道 而 直接 得 到 道 算 阵 H 保持 正定 的 估计 。 
通过 使 用 这 样 的 司 计 ， 拆 Newton 方法 保证 在 谋 差 曲面 上 是 下 降 的 。 然 而 ， 我 们 仍然 有 一 个 
Ot 下 的 计算 复 染 性 ， 上 其 中 y ERRE Ww 的 大小 。 因 此 所 Nemon 方法 在 计算 上 是 不 切实 
际 的 ， 除 非 对 一 个 非常 小 规模 的 神经 网 络 进行 训练 。 关 于 所 Newton 方法 的 讨论 将 在 本 节 后 
面 给 出 ， 

男 一 类 型 的 二 队 最 优化 方法 包括 共 思 f 梯 度 方 法 ， 它 被 认为 是 一 种 介 于 最 陡 梯 度 方法 和 
Newton 方法 之 问 的 方法 。 使 用 共 纺 梯度 方法 的 动机 是 期 绷 加 速 在 最 陡 梯 度 方法 中 经 记 的 特别 
缓慢 的 收 合 速度 ， 同 时 避免 在 Newton 万 法 中 要 求 对 Hessian FOE RMA. FRAR., EL 
次 最 优化 方法 中 ,广为人知 的 是 共 轿 梯度 方法 也 许 是 可 用 于 大 规模 问题 的 惟一 方法 ， 大 规模 
吕 量 束 是 具有 几 碧 个 怠 几 千 个 可 调整 参数 的 问题 {Feleher,1987 ),， 因 此 它 非常 适合 于 训练 多 
技 感 知 站 ， 星 型 的 应 用 包括 困 数 道 近 、 控 制 和 时 间 序 列 分 析 ( 即 回归 分 析 )。 


FTE BE ETT Tk 


ALDER RTT ASE OEE EH RR AES, RA ee — 
次 是 数 


fx) = ax" AX _b’x 4c (4,122) 


的 最 小 化 来 开始 这 些 方 法 的 讨论 ， 其 中 x 是 一 个 Wx 1 参数 向 量 , A 是 Wx MRE 
PE, bat Wxl 问 量 ，c 是 标量 。 二 次 函数 f(x} 的 最 小 化 是 通过 赋予 x 如 下 惟一 值得 到 和 的 ， 
xX = 点 -hb (4.123) 
这 样 fx) Ae MEADR D TE Ax’ =b 的 线性 系统 就 是 等 价 问题 。 
PAE ARE 入， 如 果 下 述 条 件 满足 ， 我 们 称 非 零 问 景 s(0)，s(1)，…，st 下 -1) 的 集会 是 
六 一共 扼 的 ( 即 在 矩阵 A FEATH): 
s'(n}As(j) = 0 FA n æj (4.124) 
如 未 A STARE KR FTAA EEE, 
例 4.1 TRR A- HE, SEE 4-24 所 示 属 于 二 维 问 题 的 情形 。 图 中 所 示 和 机 
辕 轨 迹 对 应 于 方程 (4.12) 在 
X = Ere rela 
Xt TR A f(x) BE ET BU 
的 图 形 ， 图 4-24a 也 包括 --- 对 关于 
ERF A TEMG AY a) fe) Bt BRER 
们 通过 变换 
vV = A”’x 
EX — AAA x 相关 的 参数 向 
量 v， 其 中 A" 是 A 的 平方 根 。 这 
EPS 4-24a 中 椭圆 轨迹 就 被 变换 为 
图 4-24b 所 示 的 固形 轨迹 ， 图 4- 424 A- itiney eae 
24a F A - HERTA m) fe) Bt ef hE a) EASES ESA ESHER 
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转换 为 图 4-24b HAY -— STE SEF I [a det = 
KF A- AVM PTR REE ENA. RIJA AARE H THE 
质 。 令 这 些 问 量 的 其 中 之 一 ， 比 旭 st0)， 用 其 余 W-1 Sine MAA A ARAF : 


s(0) = Ya,8(/) 
PAIE LA A 并 用 st0) 利 Ast0) 作 内 积 得 到 
s (0)As{0) = Yas" (OAs) = 0 


PX Ti 有 两 个 原因 使 得 二 次 型 s"(0)As(0) 不 可 能 为 零 矩阵 态 是 被 假设 为 正定 的 ， 向 量 s(0) 
定义 为 非 零 。 办 此 可 以 得 出 A- FESR lel GE s(0)，s(1)，…，s( 玉 -1) 不 能 是 线性 相关 的 ; 
Wate, 它们 必须 是 线性 无 闫 的。 

Pape A See ee 5s(0)，s(1)，…，s{ 开 一 1) 的 集合 ， 相 应 的 二 次 误差 函数 
fix) NEAR Rte a] EE SCA ( Luenberger, 1973; Fletcher, 1987; Bertsekas , 1995) 


x(n +1) = x(n} + n(n)s(n), no O,],::°, WF ~ J (4.125) 
FL x(O) ETERA, n) H 
f(x(n) + Mn)stn)) = minf(x( z) + ys(n)) (4.126) 


定义 的 标量 。 通 过 选择 1 对 某 个 固定 的 n PER RR (x(n) + ns(n)) 最 小 化 的 过 程 称 为 线 
搜索 ， 这 表示 一 维 最 小 化 问题 。 
很 据 式 (4.124)，(4.125) 和 (4.126)， 我 们 提供 如 下 观察 结果 ，; 
1. 由 于 A- SESE) fal S(O), s(1), =, SOW - 了) 线性 无 关 ， 它 们 组 成 六 的 向 量 空间 的 
一 组 基 ， 
2. 时 新 公式 (4.125) 和 式 (4.126) 的 线 最 小 化 导出 学 习 率 参数 相同 的 公式 ， 即 
ata) =< s(n) Agta) 
s'(njAs(n)? 
其 中 eln ER žE, ELH 


neh, F- 1 (4.127) 


eln) = x(n) — x" (4,128) 

3. WERT ORR, HAFA EMERE AR Wk PRAM meee) 
HIR DERE x" 。 

Fee Jr ie) EN = BE A AY ( Luenberger , 1984; Fletcher, 1987; Bertsekas , 1995) ， 

EER ARY, HRA MAKER RARAGES MER LO KBE f(x), 
BRAS 乒 妇 的 全 局 最 小 值 
TEE, FERREA n, EREE x(n + DFE MER x(OF¢ Ath A- FESR) a E 
s(0)，st1)，…，stn) 扩 展 成 的 线性 向 量 空间 2， HEARN Ax) 最 小 化 ， 表 未 为 


x(n + l) = arg minf{x) (4,129) 
其 中 空间 @, 定义 为 
= {xCn) | x(n) = x(0) + Sus] (4. 130) 


人 我 们 要 求 具备 一 个 A- Te op) fo] He st0)，s{1)， 
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s F- DRAT. EXP DAKN- RARER AA HRA, BI A 
ea MEAT ORRA R fC x) FAA BE BE ee A- Pe SOA ARR BO ed el Be, TA A 
MBH AE. A, RP n=0 之 外 ,方向 向 量 的 集合 is(n)! 并 不 是 预先 指定 的 ， 相 反 它 
是 在 该 方法 的 相继 的 步 台 测 里 行 类 定 的 。 


re RAYE ABE PRE E : 
rin} = b— Ax(n) (4.131) 
齐 而 通过 Yr(n) 和 s(n - 1) RMA, ERA 
s(n} = r(n) + Hn}stn— 1), ps hah e (4.132) 


其 中 Brn) 是 需要 确定 的 一 个 比例 因子 。 利 用 方向 向 量 A- SAE, A PERE A, 
并 将 结果 表达 式 和 s(n- 1) 作 办 积 ， 然 后 求解 8(n}) 的 结果 表达 式 ， 我 们 得 到 


s(n 1) Ar(2) 
hs s(n — Asin- 1) 


通过 式 (4.132) 和 (4.133)， 我 们 发 现 这 样 得 到 的 向 最 s0, s), =, sW- DATA -dt 
TUR o 

AR DRE 20 4.132) EA A Be BC(n)。 由 于 Btn) 目 前 的 表示 形式 ， 对 
BCn) 的 计算 公式 (4.133) 要 求 矩 阵 A 的 知识 。 出 于 计算 二 的 原因 ， 希 望 不 利用 A 的 明显 知识 
BITEJ POR 局 ) 进 行 计算 。 这 样 的 计算 可 以 通过 两 个 不 同 的 公式 中 的 一 个 得 到 {Fletcher， 
1987 ): 

1. Polak-Ribiére 公式 ， 其 中 Rn) 定义 为 
r(n)tr(n) -rn — 1)) 











(4.133) 


Bln) = racal (4.134) 
2.Fletcher-Reeves 公式 ， 其 中 BC n ERA 
a(n) = Pern) (4.135) 


r'in — 1l)r€n - ] ) 
为 了 用 共 软 梯度 方法 处 理 属 于 多 层 感 若 器 无 监督 训练 的 代价 晒 数 过 【ww) 的 无 的 束 最 优化 
可 题 ， 我 们 做 两 件 事 情 : 
© 用 一 个 二 次 国 数 逼近 代价 了 汕 数 名 ,(w)。 也 就 是 说 ， 式 (4.117) 中 三 阶 和 更 高 阶 项 被 扳 
略 。 这 午 味 着 我 们 正在 理 近 误差 曲 向 上 上 的 一 个 局 部 最 小 值 。 在 这 个 基础 上 ， 比 较 式 
(4.117) AFC (4. 122), FRA MIRAR 4-7 显示 的 联系 。 
* Fierce ESRC SIE BR on) Al BC a ROT. 使 得 仅仅 要 求 梯度 信息 。 
Ja A RES RASS PAP SBS AAE et Hessian 矩阵 H(n)， 该 矩阵 的 售 值 是 以 
计算 上 的 困难 著称 的 。 


m4-7 Ax)ME 【w) 之 间 的 对 应 


ER BRE Cx) Apt wwe Cw) 
参数 向 量 xin) ae BRE (A fe] BF win) 
PE AE lal He f(x) sox 梯度 同 量 g=08 few 
FE A Hessian PEF H 





A Hessian PF H m) We ART, A THRE RDE s(n MRR Bin), FRAT 
可 以 种 用 式 (4.134) 玖 Polak — Ribisre 公 式 或 者 式 (4.135) 中 的 Fletcher - Reeyes 公 式 , 这 两 个 
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4s TAM SRE EE ETIKAK, TIARE ERR HEE oh  , Polak - Ribiére 
公式 和 Fletcher - Reeves 公式 星 等 价 的 。 在 务 一 方面， 在 非 二 次 代价 函数 的 情形 下 ， 它 们 不 
再 等 价 。 

对 于 上 揽 二 次 最 优化 问题 ， 共 绒 梯 度 算法 的 Polak-Ribiére 形式 优先 于 该 等 法 的 Fletcher- 
Reeves 式 ， 针 对 这 个 器 题 我 们 在 下 面 提供 后 发 性 的 解释 (Bertsekas ,1995 do ETILAR 
6, (Ww) F=f SEAI ERR BF OT EUAN RAE, Pee Be) A Ea 
说 和 失 。 这 使 得 所 产生 的 方向 向 量 s(n) 近 似 正 交 于 残 差 rin WA RMB Ra KARAT 
堵 。 当 这 种 现象 出 现 的 时 候 ， 我 们 有 ra) =r(a -1)， 在 这 种 情况 下 标量 8(n) 接 近 于 零 。 
FAH, FEE sa) 近似 于 残 益 r(a)， 从 而 打破 堵塞 ， 与 此 相反 的 是 ， 当 使 用 Fletcher- 
Reeves 2 HAT, TERR BREE RIL TAIL AR EE PF BSR AR OE Ee 

然而 ， 在 极 少数 的 情况 下 ，Polak-Ribiére 方法 可 以 无 限 循 环 下 大 而 不 收 伍 。 人 得 庆幸 的 
JÆ, Polak-Ribiére 方法 的 收 侣 可 以 通过 选择 

B = max: By 1 (4.136) 
{FEIER UE (Shewchuk, 1994), FEAR Bs SE ea st (4.134) 的 Polak-Ribiére 公式 定义 的 什 。 如 果 
Bn < 0, A] FATA C4. 136) Fe A BS pL, BH BEARS 
最 后 的 搜索 方向 并 所 在 最 陡 下 降 方向 上 重新 开始 (Shewchuk,1994 )。 

考虑 下 一 个 计算 参数 1(a) 的 问题 ， 它 决定 共 二 梯 度 算 法 的 学 习 率 。 和 计算 3(n) 的 一 
fF, A 水 友 的 首选 办 法 是 避免 必须 使 用 Hessian SAM H(n)。 我 们 回忆 基于 式 (4.126) 的 变 
最 小 化 导出 的 六 如 的 公式 各 源 于 史 新 公式 (4.125) 得 到 的 mtn) 计算 公式 的 相同 。 当 此 我 们 需 
要 一 个 直线 搜索 “”， 这 样 的 目的 是 对 9 BME RE, (ws ms)。 也 就 是 说 ， 给 定向 量 w 和 和 s 
的 固定 值 ， 现 在 的 问题 是 改变 ?使 得 两 数 最 小 化 。 随 着 1 的 变化 ， 自 变量 we wh Ww 
维 向 量 空间 中 画册 一 条 直线 ， 因 此 称 为 “直线 秆 索 ”"。 直 线 搜索 算法 是 一 个 迁 代 过 程 ， 它 为 共 
吃 履 度 算法 的 每 次 连 代 产生 一 个 估计 序列 ijn(n)i}。 当 找到 令 入 满意 的 解 时 ， 直 线 搜索 被 个 
下 。 和 直线 搜索 必须 在 每 个 搜索 方向 上 进行 。 

在 文献 中 提出 了 几 种 直线 索 搜 算 方法 ， 并 且 选 择 一 个 好 的 算法 是 重要 地 ， 因 为 它 对 被 
朋 入 其 中 的 共 扼 梯度 法 的 性 能 上 其 有 深远 的 有 影响。 任何 直 线索 搜 算 法 有 两 个 阶段 (Fletcher， 
1987): 

* 和 红 括 阶段 ， 也 襄 是 搜索 一 段 区 间 ， 妈 包含 一 个 最 小 值 的 非 平 几 区 间 ; 

。 截 段 阶段 ， 在 这 个 阶段 中 ， 区 间 被 截 成 段 ( 即 被 分 割 )， 因 此 产生 一 系列 长 度 越 来 越 

小 的 子 区 间 。 
现在 我 们 铬 述 一 个 直接 处 理 这 两 个 阶段 的 曲线 拟 合 过 程 。 

Sb, (DRA SR RAH BM, RAH y Hew. HES, (n) 是 严格 单 峰 的 
(unimodal) ( R EMALA wl) 的 附近 只 有 单一 的 最 小 值 ) 并 旦 是 二 次 连续 可 微 的 。 我 们 沿 直 
线 开 始 搜索 过 程 ， 直 到 求 出 满足 条 件 

y(n) = S093) e Enh) 对 于 <n < (4.137) 
BIZDA Mm mo qs WE 4-25 Pras. KS, (mm) 是 的 连续 函数 ， 式 {4.137) 描 述 的 选择 
保证 区 间 [ y ,95 包含 函数 昌 。 (中 的 一 个 最 小 值 。 假 设 函 数 雪 (站 ) 充 分 光滑 ， 我 们 可 以 认为 这 
个 函数 在 紧邻 最 小 值 的 区 间 是 抛物 线形 的 。 因 此 ， 我 们 可 以 使 用 反 抛物 线 插值 法 (inverse 
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parabolic interpolation) 进行 分 段 (Press el al., 1988), SHARH, DOH os Be E = Pa 
Ham. nas pi, WA 4-26 m, KP SAR EES, a), MERA ASP BERL BS — tk 
迭代 。 今 表示 通过 三 点 1. 2. p AMARRE. AR 4-26 所 示 的 例子 中 ， 我们 
AEn a) <E, (ye), Eg) <@, Cg). Rp wit. TEAR LD, nale ated 
一 条 通过 点 Dom. nUMR EAE, | ROKR ORWNBRE SK, HE 
找到 一 个 是 够 接近 电信 的 最 小 倡 的 点 ， 此 时 直线 搜索 终止 。 

Él) 


Tal) T 


Eih) ee | eae E E E E 
E vl] z) T i eS 





Wi Ta 3 a} Hh Ti Tja a 7 
图 4-25 直线 搜索 示意 图 图 44-28 反 抛物 插值 
Brent 的 方法 建立 刚才 所 述 的 三 点 曲线 氢 合 过 程 的 一 个 高 度 精练 的 形式 (Press et al., 
1988 )。 在 计算 的 任何 特殊 阶段 ，Brent 方法 保持 多, (7) 函数 六 个 点 的 胃 迹 ， 所 有 点 可 能 不 必 
互 不 相 则 。 如 前 所 述 ， 挑 物 线 插值 试图 通过 这 些 点 中 的 二 个 。 为 了 使 得 这 个 搬 值 法 是 可 接受 
了 的 ， 剩 下 网 三 点 必须 满足 一 年 标准 。 最 终结 果 是 一 个 鲁 棒 直 组 搜索 算法 。 
非 线 性 共 扼 梯度 算法 小 结 


现在 我 们 给 出 形式 描述 用 于 多 层 感 知 器 监督 训练 的 共 拓 梯度 算法 的 非 线性 ( 非 二 次 ) 形 式 
的 所 有 需要 的 要 素 。 表 4-8 给 出 该 算法 的 小 结 。 


拟 Newton 方法 
车 新 开始 讨论 拟 Newton 方法 ， 我 们 发 现 这 些 基本 上 是 梯度 方法 ， 用 更 新 公式 
win +l) = win) + nOnjs(n) (4, 138) 
dem, FCPS In] fo) St s(n) 用 梯度 同 量 ol TE MA 
s(n) =- SCn}g(n} (4.139) 


ERF SCa) 是 在 每 次 迭代 中 调整 的 正定 矩阵 。 这 样 做 是 为 了 使 得 方向 向量 s(n EMEA 
mj, EJ 

~(# ELW) (dE fdw) 
#4 Newton 方法 使 用 误差 曲面 的 二 阶 ( 曲 率 ) 和 信息 ， 实 际 上 不 要 求 Hessian 矩阵 H 的 知识 。 这 通 
oH Fa YK ESTE won). win + 1) 与 梯度 向 量 gtin)、g(n + DEEN, $ 
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表 4-8 用 于 多 层 感知 器 有 监督 训练 的 非 线性 共 扼 梯度 算法 小 结 


47 4646 

BRIE ACE H ow SS Hen HE, A GR fe a OR ae 0} ， 

计算 

1. 对 于 wt0)， 用 反 向 导 播 算法 计算 梯度 向 屁 g0), 

2. 设置 st0} = ri0) = -gi0). 

3. FER a, FARR aR ore MEG (i nad, WTAE ws, REBRE 表示 为 1 的 隔 数 ， 
4. Wie eC AE LR PRES IRERE TF, HARRE || 00) | 的 很 小 的 一 部 分 。 

5. PSA : 


win +1) = wn] + ylnjsta) 
对 于 wln+1)， 用 应 向 传播 算法 计算 更 新 的 梯度 向 基 gin +1), 
RE relat lis 一 gin+1), 
. 用 Polak-Rihiér: 方法 计算 Bian + 1): 


aA ~d Of 


Aln +1) = max a {Pt DOC + ey a ae) o} 


EAA hR: 


Wo 


sin tit} = rline lL) 4+ tn + Lista} 
10. EB n= n+1， 转 第 3 步 。 
TERN SPERRER RAH.: 
ralli ae rd || 
AH e TBE DE. 





qin) = g(n +1) - gin) (4,140) 
和 Awi nj=zwil n+l- wen) (4,141) 
这 样 我 们 可 以 通过 下 近 式 

gin) = (gCn)] Aw(n) (4.142) 


得 到 曲率 信息 。 特 别 地 ， 给 定 WARTETE Bt Aw), Aw(1), =, Aw(W-1) 40 
各 旧 的 梯度 增 量 qt0)， qail), =, gOW—-1), F718) Lott Hessian rE HOF: 

H = [q(0),q(1),--.q( W — 1) JEAw(0), Aw), e AwCW — 1)]! (4.143) 
Fe (Jt By VATE Hessian FRM GNF: 

H™ = [Aw(0),Aw(1),---,Aw(W - 1) ][qf0).qg(1),--,.g( —1)]"' (4.144) 
HAARE, Cw) A Uk RY EE, 4.143) FA, 144) EAA o 

TA FAY 28 Newton FRE, ERE Sin + 1) 由 它 先 前 的 值 5S(n)， 向 呈 Awin) Ai 

qí n) = FB A oe 18 Bl ( Pletcher, 1987; Bertsekas , 1995 ) - 
Aw(n)Aw'(n) — S(n)q(n)q'(n)S(n) 





SCa +1) = S€n)+ 


q (nq(n) q nS angin) (4.145) 

+ E(n)ilg Ca)SCndq(n) liv(n)v'(n)] 
其 中 von) = Rr Cn Aw) ee (4.146) 
并 且 0<&nJ<xl WFAA n (4.147) 


VARTA DAE Rae BY IE PE S(0) 进 行 初 始 化 。 执 Newton 方法 的 特殊 形式 参数 化 为 如 何 定 
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ee rr ee ee FP = 


Xp HE n(n), 4 FETZ (Fletcher, 1987 ); 
© SIFA n 满足 tn) =0, $1114] Davidon-Fletcher-Powell( DFP) 算 法 ， 它 是 历史 上 
ART HG Newton 方法 . 
"对 于 所 有 满足 &(n)=1， 我 们 得 到 Broyden-Fletcher-Goldfarb-Shanno 算法 ， 它 在 日 前 
被 认为 是 拟 Newton 方法 的 最 好 形式 ， | 


H Newton 方法 和 共振 柳 度 法 的 比较 


我 们 通过 在 非 二 次 最 优化 问题 背景 下 对 拟 Newton 方法 和 共 掀 梯度 法 的 比较 ， 来 结束 拟 
Newton 方法 的 简要 讨论 (Bertsekas， 1995), 

© 7A Newton 方法 和 共 扼 梯度 法 都 避免 使 用 Hessian ee. AM, HH Newton 方法 通过 通 
近 逆 Hessian Fa MEAT FAR. BR, SARRA ERRA aA 
具有 正定 Hessian 矩阵 的 局 部 最 小 值 时 ， 拟 Newton 方法 赵 于 通 近 Newton Ae, Atk 
455 BUC SCE BS Le ETT RR HE PE BBE A ae a Sa FEB pe 

© fA Newton 方法 对 在 最 优化 的 直线 搜索 阶段 精度 的 灵敏 性 不 如 共 扼 梯度 法 ，。 

© 除了 方向 向 量 Sa) 计算 相关 的 矩阵 向 量 乘法 之 外 ， 拟 Newton WEIR ER EE IE 
Slan) Baa EW Newton 方法 的 计算 复杂 度 是 0{ 琴 )。 相 反 ， 共 扼 梯 度 法 的 计 
算 复 条 度 为 OCW). REE, “ARR W RURE E w 的 个 数 ) 很 大 时 ， 共 扼 梯 度 法 比 
Hi Newton 方法 在 计算 上 具有 更 大 的 优越 性 。 

正 是 因为 后 面 这 一 点 ， 实 际 上 氢 Newton 方法 限于 小 规模 神经 网 络 的 设计 。 


4.19 SRA 


到 目前 为 止 ， 我 们 都 在 考虑 多 层 感知 器 算法 设计 和 相关 的 问题 。 本 节 我 们 集中 在 多 层 感 
划 彰 本 身 的 衙 构 布 局 问题 上。 特别 地 ， 我 们 描述 一 类 特 定 的 通称 为 者 积 网 络 的 多 层 感知 器 ; 
这 些 网 络 上 所 隐 含 的 思想 已 经 在 第 1 章 简 要 给 由 。 

一 个 着 积 网 络 是 为 识别 二 维 形状 而 特殊 设计 的 一 个 多 层 感 知 器 ， 这 种 二 维 形状 对 平移 、 
比例 缩放 、 倾 斜 或 者 其 他 形式 的 变形 具有 高 度 不 变性 。 这 个 艰巨 的 任务 是 通过 如 下 网 络 在 监 
督 方式 下 学 会 的 ， 网 络 的 结构 包括 如 下 形式 的 约束 (LeCun and Bengio, 1995) - 

1. 特征 提取 。 每 一 个 神经 元 从 上 一 层 的 局 部 接受 域 得 到 突 触 输入 ， 因 而 迫使 它 提取 局 
部 特征 。 一 旦 一 个 特征 被 提取 出 来 ， 只 要 它 相 对 于 其 他 特征 的 位 置 被 近似 地 保留 下 来 ， 它 的 
精确 位 置 就 变 得 没有 那么 重要 了 ， 

2. 特征 映射 。 网 络 的 每 一 个 计算 屋 都 是 由 多 个 特征 映射 组 成 的 ， 每 个 特征 映射 都 是 平 
面 形式 的 ， 平 面 中 单独 的 神经 元 在 约束 下 共享 相同 的 突 触 权 值 集 。 这 种 结构 约束 的 第 二 种 形 





式 具有 如 下 的 有 益 效果 : 
”平移 不 变性 ， 强 迫 特征 映射 的 执行 使 用 具有 小 尺度 核 的 卷 积 ， 再 接着 用 一 个 sigmoid 
(HEIK) 


* HREH, AAEM. 

3. 子 抽样 。 每 个 卷 积 层 跟着 一 个 实现 局 部 平均 和 子 抽样 的 计算 层 ， 由 此 特征 旺 射 的 分 
洋 认 降低 。 这 种 操作 具有 使 特征 映射 的 输出 对 平移 和 其 他 形式 的 变形 的 敏感 度 下 降 的 作用 。 

正如 所 述 ， 卷 积 网 络 的 发 展 是 由 神经 生物 学 激发 的 ， 这 可 和 追 湖 到 Hubel 和 Wiesel ( 1962, 
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1977) 关 于 猫 的 视觉 皮层 上 局 部 灵敏 和 方位 选择 神经 元 的 开拓 性 工作 。 

我 们 强调 指出 在 -个 卷 积 网 络 所 有 层 中 的 所 有 权 萌 都 是 通过 训练 来 学 习 的 。 此 外 ， 网 络 
E JIRA ERE BAS 。 

图 4-27 $208 hy — A Fe Ba ee -5-40 AR RR R R BY TJ < 
TA Pads Oe HF FS Ed ES RA). 输入 层 由 28 x 28 TREAT IE AM, 
接收 已 经 近似 处 于 中 心 位 置 和 在 大 小 上 规整 化 的 不 同 字 符 的 图 像 。 然 后 ， 计 算 流 程 在 卷 积 和 
子 抽样 之 间 交 替 ， 如 下 所 述 ， 

。 第 -- 隐 绽 层 进行 卷 积 。 它 由 四 个 特征 映射 组 成 ， 每 个 特征 映射 由 24 x 24 个 神经 元 组 

成 。 每 个 神经 元 指定 一 个 5x5 eRe 

。 第 一 隐 关 层 实现 子 抽样 和 局 部 平均 。 它 同样 由 四 个 特征 映射 组 成 ， 但 其 每 个 特征 映 
Sty 12x12 个 神经 元 组 成 。 每 个 神经 J 具有 一 个 2x2 的 接受 域 ， 一 个 可 训练 系数 ， 
一 个 可 训练 偏 置 和 -- 个 sigmoid 激活 函数 。 可 训练 系数 和 偏 置 控制 神经 元 的 操作 点 ; 
例如 ， 如 果 系 数 很 小 ， 该 神经 死 以 拟 线 忻 方式 操作 。 

。 第 三 隐藏 层 进行 第 二 次 卷 积 。 它 由 12 个 特征 映射 组 成 ， 每 个 特征 映射 由 8x8 个 神 
经 元 组 成 。 沪 隐藏 层 中 的 每 个 神经 元 可 能 具有 和 上 一 个 隐藏 层 几 个 特征 映射 相连 的 
突 触 连接 。 否 则 ， 它 以 第 一 个 卷 积 层 相似 的 方式 操作 。 

。 第 四 个 隐藏 层 进行 第 二 次 子 抽样 和 局 部 平 锯 计算 。 它 由 12 个 特征 映射 组 成 ， 但 每 个 
特征 映射 由 4x4 个 神经 元 组 成 。 否 则 它 以 第 一 次 抽样 由 似 的 方式 操作 。 

。 输出 层 实现 卷 积 的 最 后 阶段 。 它 由 26 个 神经 元 组 成 ， 每 个 神经 元 指定 为 26 个 可 能 
的 字符 中 的 一 个 。 跟 前 面 一 样 ， 每 个 神经 元 指定 一 个 4x 4 的 接受 域 。 

相继 的 计算 层 在 卷 积 和 抽样 之 间 的 连续 交替 ， 我 们 得 到 一 个 “ 双 尖 塔 "的 效果 。 也 就 是 在 
每 个 卷 积 或 抽样 层 ， 贿 着 空间 分 辨 率 下 降 ， 与 相应 的 前 一 层 相 比 特征 映射 的 数量 卉 如。 符 祝 


[246] 之 后 进行 子 抽样 的 思想 是 受到 Hubel 和 Wiesel(1962) 首 先 描述 的 “简单 的 细胞 后 面 跟 着 “ 复 灶 


的 ”细胞 :5 的 想法 的 启发 而 产生 的 。 
ee tE TE pi FETERE Si ERE Hee HEREA 输出 
= 28 Xx Zi dig 7d & 74 Ai)? = 1? LIRR x [Pad x 4 26001 x ] 





rel 4-27 用 于 图 像 处 理 如 手写 体 识别 的 卷 积 网 强 ({MIT ek SD 


图 4-27 所 示 的 多 层 感 知 器 包含 近似 100 000 个 突 触 连接 ,但 只 有 太 约 2 600 个 自由 和 参数。 
白 由 参数 在 数量 上 显著 地 减少 是 通过 权 值 共识 获得 的 。 学 习 机 器 的 能 力 ( 以 VC 维 的 形式 度 
量 ) 因 而 下 降 ， 这 又 提高 它 的 汉化 能 力 (LeCun, 1989 )。 其 至 更 值得 注意 的 是 对 自由 参数 的 调 


整 通 过 反 向 传播 学 习 的 随机 ( 串 行 的 ) 形 式 来 实现 。 
另 一 个 显著 的 特点 是 使 用 权 值 共享 使 得 以 并 行 形式 实现 卷 积 网 络 变 得 可 能 。 这 是 葵 积 网 


络 对 完全 连接 的 多 层 感知 器 而 言 的 男 一 个 优点 。 
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从 图 4-27 的 卷 积 网 络 中 学 习 的 经 验 有 两 个 方面 。 首 先 ， 通 过 结合 当前 任务 的 先 验 知识 
约束 其 设计 ， 一 个 易 调 整 大 小 的 多 层 感知 器 能 够 学 习 一 个 复杂 的 、 高 维 的 和 非 线性 的 映射 
其 次 ， 突 触 权 值 和 偏转 水 平 可 以 周而复始 地 执行 通过 训练 集 的 简单 反 向 传播 算法 进行 学 习 。 


4.20 小 结 和 讨论 


反 疝 传播 学 习 忆 经 成 为 多 层 感 知 器 的 训练 的 标准 算法 ， 它 通 稼 作为 其 他 和 尝 习 算法 的 基 
准 。 上 反问 传播 算法 的 名 字 起 源 寺 这 样 一 个 毛 实 ， 网 络 的 代价 甫 数 { 性 能 度量 } 对 日 由 参数 ( 突 
钥 权 值 和 偏 吗 ) 的 偏 导数 是 由 通过 网 络 一 屋 一 屋 度 辐 传 播 误差 信号 { 由 输出 神经 元 计算 ) 所 决 
定 的 。 在 这 样 的 处 理 过 程 中 ， 它 以 韭 常 高 明 的 方式 解决 信任 赋值 (credit-assignment) 的 问题 。 
该 算法 的 计算 能 力 在 于 和 它 的 上 项 个 主要 特征 : 

* 时 新 多 层 感知 器 突 触 权 值 和 偏 置 的 局 部 方法 。 

*。 计算 代价 函数 对 这 些 自 由 参数 的 所 有 俩 导数 的 高 效 方 法 ，。 

对 于 训练 数据 的 一 个 给 定 回 合 ， 反 向 传播 算 东 以 这 样 两 个 方式 中 的 一 个 操作 : 串 行 的 方 
式 或 者 集中 式 的 方式 。 在 串 行 方式 中 网 络 的 所 有 神经 元 的 突 触 权 值 都 是 在 一 个 模式 接着 一 个 
模式 的 基础 上 调整 的 。 因 此 ， 在 计算 中 使 用 的 误差 曲面 梯度 加 量 的 估算 值 在 本 质 土 是 随机 的 
‘任意 的 )， 因 此 “随机 及 问 传 播 ARE RRS UR Th. LAA 
面 ， 在 集中 式 方式 中 ,对 所 有 突 触 权 值 和 懈 置 的 调整 是 在 一 个 回合 接 一 个 回合 的 基础 土 进行 
的 ， 这 样 症 计 算 中 使 用 梯度 向 基 更 精确 的 估计 。 无 论 它 的 缺点 如 何 ， RES UNE 
(随机 ) 形 式 是 神经 网 络 设计 中 使 用 频率 最 融 的 ， 特 别 是 在 大 型 问题 上 。 为 了 得 到 最 好 的 结 
R, 需要 小 心地 调整 算法 。 

在 多 层 感 知 器 设计 中 的 特定 细节 问 驯 自然 依 惠 于 有 关上 县 体 的 应 用 。 然 而 ， 我 们 可 以 局 出 
两 种 区 分 : 

1 . 在 涉及 非 线 性 可 分 模式 的 模式 分 类 中 ， 网 络 中 的 所 有 神经 无 都 基 非 线性 的 。 这 个 非 
线性 是 通过 使 用 sigmoid 范 数 来 获得 的 ， 该 函数 的 两 种 通 遂 用 法 是 (a) 非 对 称 logistic AZt, A 
(b) 友 对 称 双 曲 正 切 图 数 ， 每 个 神经 元 负责 在 站 策 空间 中 产生 它 上 是 己 的 超 平 面 。 通 过 一 个 监 
督 的 学 习 过 程 ， 网 络 中 由 所 有 神经 元 形成 的 挡 平 面 的 组 合 锌 及 复 调整 ， 使 之 分 离 来 日 不 同类 
的 以 前 未 曾 见 过 的 模式 时 具有 最 少 的 平均 分 类 误差 。 对 于 模式 分 类 来 说 ， 随 机 友 回 传播 算法 
是 实现 训练 最 广 证 使 用 的 算法 ， 特 别 是 在 大 型 问题 上 (例如 光学 字符 识别 )。 

2. 在 非 线性 回归 中 ， 多 层 感知 器 的 输出 范围 应 该 大 到 足以 以 包含 过 程 值 ;如果 这 个 依 
息 不 能 得 到 ， 那 么 线性 输出 神经 元 的 使 用 是 最 明知 的 选择 。 对 学 习 算 法 ， 我们 提供 如 下 的 观 
RRN, 

© 上 反 向 传播 学 当 的 串 行 (随机 ) 方 式 比 集中 方式 慢 得 多 。 

。 反 向 传播 学 习 集 中 方式 比 共 扼 梯度 方法 慢 。 然 而 ， 注 意 语 一 种 万 法 只 能 在 集中 方式 

中 使 用 。 

我 们 以 一 些 关于 性 能 度量 的 最 后 评论 结束 这 一 讨论 。 本 章 中 提出 的 反 回 算法 的 推导 是 基 
于 以 这 种 或 那 种 方法 最 小 化 代价 卫 数 各, ， 代 价 录 数 审定 疼 为 误差 平方 和 在 整个 训练 集 上 平 
殉 。 这 个 准则 的 一 个 重要 优点 是 它 的 次 通 性 和 数学 上 的 多 处 理性 。 然 而 ， 实 际 中 丙 到 的 许多 
情况 ， 最 小 化 代价 画 数 电 , 相当 于 优化 并 不 是 系统 最 终 目标 的 中 间 量 ， 并 县 可 能 因此 导致 一 
个 次 优 的 性 能 。 例 如 ， 在 资本 市 场 交 易 系 统 中 ， 一 个 投资 者 或 交易 者 的 最 终 目标 是 以 最 小 的 
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风险 获得 最 大 的 预期 回报 (Choey and Weigend, 1996; Moody and Wu, 1996). FEJ Dil Bar pa [Bl FR 
AITE RETE TEREA E E E (Sharpe ratio) ak ISR $ £ Æ ( reward-to-volatility ratio) MAW EEEE, E 
有 吸引 力 。 


注释 和 和 参考 文献 


au 


[5] 


[6] 


sigmoid ARR R mA ERA AE (1S PS E s JER, Menon et al. (1996)X AIZE sigmoid 
。 HÆ sigmoid, E MA RDEA SP A Al Sc Se 2 ed BY) BL tp PRY 
« IIR sigmoid, 1EM sigmoid 的 一 个 真子 集 和 双 曲 线 正 切 明 数 的 自然 推广 
对 于 LMS 算法 的 特殊 情形 ， 已 经 证 明 使 用 动量 常数 a 降低 学 习 率 参数 0 的 稳定 范围， 
并 且 如 果 没有 被 适当 调 整 ， 这 样 会 导致 不 稳定 。 此 外 ， 错 误 调整 也 随 a 的 增加 而 增 
K: 更 详细 的 论述 请 见 Roy and Shnk(1990)。 
对 于 从 第 一 条 原则 中 导出 包含 动量 常数 的 反 向 传播 算法 ， 见 Hagiwara( 1992) 。 
如 来 向 量 w 不 比 它 邻近 的 点 向量 更 差 的 话 ， 同 量 w Bee A Ba eae 下 的 一 个 局 
部 最 小 值 ; 也 融 是 ， 如 果 仓 在 一 个 OO F ( Bertsekas, 1995 ): 

Fiw) s Fw) 对 所 有 满足 1w-w || < etw 
如 果 w PERE RERA, MRE A F 的 一 个 全 局 最 小 值 ; 也 就 是 ， 

Fiw’) = Fiw) REETH RY w E R? 

HP n E w EHER, 
IA CAS PE TA E ER E RAR RM VP Werbos( 1974), Æ 4.10 节 中 给 
出 的 材料 依照 Saarinen et 可 .(1992) 给 出 的 处 理 方法 : Werhos(1990) 对 该 题目 给 出 更 一 般 
的 讨论 。 
网 络 设 计 得 益 于 Hessian 矩阵 知识 的 其 他 方面 包括 (Bishop 1995): 
(1 在 训练 数据 中 进行 很 小 变化 后 ，Hessian 算 阵 组 成 多 层 感 知 器 再 训练 过 程 的 基础 。 
(2 在 Bayes 学 了 的 背景 下 ， 
« Hessian 秆 阵 的 逆 可 用 于 为 训练 后 的 神经 网 络 作 出 的 非 线 性 预测 提供 误差 条 ， 并且 
。 Hessian 矩阵 的 特征 值 可 兴 用 于 决定 正则 化 参数 的 合适 值 。 
Buntine 和 Weigend{1994) 回 顾 计 算 Hessian 和 个 阵 的 精确 算法 和 近似 算法 ， 并 有 特别 针对 
神经 网 络 的 参考 文献 ; 也 可 参考 Battiti(1992) 的 文章 。 
通用 通 近 定理 可 以 看 作 是 Weierstrass 定理 {Weierstrass,1885) 的 自然 扩展 ， 这 个 定理 表明 
任何 一 外 在 实 轴 闭 区 间 上 的 连续 函数 都 可 以 表示 成 该 区 间 上 绝对 一 致 收 教 的 多 项 式 级 
数 的 和 极限， 

以 多 层 感 向 秀 作 为 工具 进行 对 任意 连续 琢 数 表示 的 研究 很 可 能 是 和 首先 征 
HechtNielsen{ 1987) 提 起 关注， 他 引用 了 归功 于 Sprecher( 1965) 的 Kolomogorov 登 加 定理 的 
改进 版 本 。 然 后 Gallant 和 White(1988) 证 明 ， 在 隐藏 层 具 有 单调 “余弦 " 撞 压 和 在 输出 无 
PTE FS) EEL es ae > Ae ee JR a Fe aR VE“ Fourier 网 络 " 的 特殊 情形 散 入 的 ， 它 的 输出 产生 
ZTE RARI Fourier BEIT. SAM. FES BRAG Ae F, Cybenko 第 一 次 严 
fa WEAR T — T Ree A ee ESE SE a) A eR 这 项 工 
作 作 为 1988 伊利 诺 斯 大 学 的 技术 报告 发 表 ， 一 年 之 后 作为 论文 发 表 (Cybenko, 1988, 
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[11] 


ae S ——, 1 = — 


1989), 在 1989 ©, AIA mw ATZAR ai eae ie IEY AS, — f H 
Funahashi 完成 ， 忆 外 一 篇 由 Hornik, Stincheombe 和 White 524%. WEG 6 PoE i a g pg 
页 献 ， 请 见 Light(1992b)。 
区 又 确认 的 发 展 历 史 在 Stonet1974) 中 有 记载 。 交叉 确认 的 忠 想 至 少 在 20 世纪 各 年 代 
就 已 广泛 传播 ， 倡 该 项 技术 的 改进 是 在 加 0 世纪 99 年代 和 70 年 代 完 成 的 。 该 领域 的 两 
址 重要 论文 是 Stone( 1974) 和 Geisser( 1975), 他 科 独 空地 并 且 刀 平 辣 时 提出 这 项 技术 。 
这 项 技术 被 Stone 命名 为 "交叉 确认 方法 ”， 而 Geisser 则 称 之 为 "预测 样本 复 用 方法 ”。 
关于 训练 早期 停止 方法 的 最 初 参考 文献 包括 Morgan and Bourlard{ 1990) #1 Weigend et al. 
41990)。 也 许 允 多 层 感 车 器 训练 早期 停止 方法 最 详尽 的 统计 学 分 析 是 由 Amai et al. 
\1996a) 提 出 的 。 这 项 研究 得 到 具有 108 个 可 调整 参数 和 一 个 非常 巨大 的 数据 集 (50 000 
个 样本 ) 的 8-8-4 分 类 禹 的 计算 机 仿 直 的 支持 。 
级 联 相 关 学 习 体 系 结 构 (Fahlman and Lebiere,1990) 是 网 络 生长 方法 的 一 个 例子 。 该 过 程 
从 一 个 最 小 网 络 开始 ， 这 个 最 小 网 络 共 有 基于 输入 /输出 考虑 而 指定 的 一 些 输入 和 一 个 
或 者 更 多 的 输出 节点 , 但 隐藏 层 没有 节点 。 俩 如 ，ILMS 算法 可 以 用 来 训练 网 络 。 隐 藏 
神经 元 被 一 个 接 一 个 地 添加 到 网 络 中 ， 因 此 得 到 一 个 多 层 结 构 。 每 个 新 的 神经 元 从 每 
个 输入 节点 接受 一 个 罕 和 触 连接， 并且 从 每 个 先前 存在 的 隐藏 神经 元 同样 接受 连接 。 当 
增 训 一 个 新 的 隐藏 神经 元 的 时 候 ， 该 神经 元 输 人 边 的 罕 触 连接 被 冻结 ; 只 有 在 输出 边 
的 帘 触 连 搂 被 反复 地 训练 .这 个 被 加 进去 的 泪 藏 神经 元 就 成 为 网 络 中 永久 的 特征 检测 
语 。 添 加 痢 的 隐藏 神经 元 的 过 程 如 上 述 形 式 进行 直到 得 到 令 人 满意 的 性 能 为 止 。 

然而 在 Lee et al.(1990) 所 论述 的 网 络 生长 方法 中 ， 在 前 向 通过 (请 数 级 自 适 应 ) 和 
皮 问 通过 (参数 级 自 适 应 } 上 增加 了 称 为 结构 级 自 拓 应 的 第 三 级 计算 。 在 第 三 级 计算 中 ， 
网 络 的 结构 通过 改变 神经 元 的 数量 和 网 络 中 神经 元 之 间 的 结构 关系 而 进行 调整 。 这 里 
所 使 用 的 准则 是 当 估 计 误 差 ( 收 敏之 后 ) 比 期 望 的 值 大 ， 则 在 网 络 中 最 需要 的 地 方 增加 
一 个 神经 元 。 新 的 神经 元 的 合适 位 置 取决 于 监督 网 络 的 学 习 行 为 。 特 别 地 ， 如 果 在 一 
个 长 期 的 参数 调整 (训练 ) 之 后 ， 某 神经 元 输入 的 突出 连接 权 值 向 量 连 续 显著 地 波动 ， 
可 以 推断 正 被 讨论 的 神经 元 没有 足够 的 表达 能 力学 习 它 所 杀 扫 的 任务 。 结 构 级 自 适 应 
同样 包括 防 角 神经 元 可 能 出 现 的 素 绝 。 一 个 神经 元 当 它 不 在 是 网 络 的 功能 元 素 或 者 它 
是 网 络 中 多 杂 元 素 的 时 候 ， 它 将 灭绝 。 这 种 网 络 增 长 的 六 法 看 起 来 是 计算 密集 的 。 
Hecht-Nielsen( 1995) 找 述 一 种 复制 器 神经 网 络 ， 仑 是 具有 三 个 隐 涂 屋 和 一 个 输出 层 的 多 
FERALAS HE St 
© FA AA (BS Pe OE ee A.: 

py) = fp) = tanh(v) 

其 中 "是 在 这 些 层 中 一 个 神经 元 的 被 包含 的 诱导 局 部 域 。 

。 在 中 间 ( 隐 含 ) 层 的 每 个 神经 元 的 激活 昂 数 由 


i ] ] N-t 。 
Cy) = 4 + NN. 1) Dy tanh( af » 一 二 
给 出 ， 其 中 a 足 一 个 增益 参数 ，v BRE PHS RS AR. BH o” (oo) 描 述 一 


个 放 请 的 具有 N 级 的 阶梯 激活 区 数 ， 因 而 本 质 把 相关 神经 元 层 的 输出 问 量 转化 为 下 = 
AN 级 ， 其 中 上 是 中 间 隐 藏 层 的 神经 元 数目 。 
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。 输出 层 中 的 神经 元 是 线性 的 ， 它们 的 激活 育 数 定义 为 

og) =» 
基于 这 种 十 经 网 络 结 构 ，Hecht-Nielsen 提出 了 - -个 定理 ,证 明 对 和 随机 输入 数据 同 量 的 最 
AEA HE Us Sa FE BY A BY 

(13) F(T Bee 0S Ae Re A PE J BB 7) fa ee Fe RES, A OE 
完成 的 任务 。 不 芝 ， 在 文献 中 已 有 关于 这 个 问题 的 一 些 进展 的 报告 。Baidi 和 Hornik 
(1989) 考 夸 了 有 具有 线性 激 铬 上 图 煞 的 分 层 前 馈 神经 网 络 使 用 反 同 传播 学 习 中 的 学 习 问 题 。 
他们 论文 中 的 主要 结论 是 误差 曲面 只 有 惟一 的 最 小 值 ， 对 应 于 训练 模式 的 协 方差 盾 阵 
第 一 主 特征 阿 量 所 扩张 的 子 空间 上 的 正 交 投影 ;误差 临 面 上 所 有 的 其 他 临界 点 都 是 贰 
fio Gori 和 Tesit1992) 考 虑 了 上 反 向 传播 更 一 般 的 情形 ， 和 包括 使 用 非 线 性 神经 yt。 他 们 论 
文中 的 主要 结论 是 对 于 线性 可 分 模 弄 ， 可 以 通过 使 用 反 身 传播 党 习 的 集中 人 处 埋 方 式 来 
确保 收 倒 于 一 个 最 优 解 (也 就 是 全 局 最 小 值 )， 并 且 网 络 对 新 样本 的 池 化 能 力 超过 了 
Rosenblatt AW 。 

[14] 基于 启发 1 到 启发 上 对 到 向 传播 算法 的 修改 被 称 为 delta-bardelta 3% 2J $I) (Jacobs, 
1988), ERPS 4.3 节 学 出 反 向 传播 算法 的 传统 形式 相似 的 过 程 。delta-bar-delta 
学 习 规 则 的 实现 可 以 通过 采用 与 梯度 复 用 方法 (Hush and Sales, 1988; Haykin and Deng, 
1991) 相 似 的 思想 来 进行 简化 。 

Salomon 和 Van Hemmen(1996) 提 出 一 种 加 速 反 向 传播 学 丑 过程 的 动态 自 适 应 过 程 。 
它 的 根本 思想 是 用 前 一 时 间 步 的 学 习 率 ， 轻 微 地 增加 和 减少 它 ， 对 学 习 率 参数 的 这 两 
个 新 的 值 求 代 价 隙 数 的 值 ， 然 后 选择 使 代价 函数 取 值 小 的 一 个 。 

L 15) 共 轿 梯度 方法 的 经 典 参 考 文献 是 Hestenes and Stiefel( 1952 的 戎 作 。 关 于 在 辆 梯度 算法 收 
mT ATE, W, Luenberger( 1984) and Bertsekas( 1995), % FICHE Ae OTe 
ATS SEAR BBA HE, DL Shewchuk ( 1994) 。 关于 在 神经 网 络 领域 中 该 算法 的 易 读 文献 见 
Johansson et al. (1990). 

[16] HBR EN RRERE REBAR, CANE SHS RH MRE 
而 花费 时间。Mgller( 1993) FH SESE BIS Ae Maa, ERY EL ZED ER E, 
EM Fe EA RI. MA ORI, A ed A ESS TY Tevenberg- 
Marquardt 形式 代 葡 。 使 用 这 种 办 法 的 动机 是 避 开 由 非 正 定 Hessian 4E RES | Ae o BE 
( Fletcher, 1987) 。 

L17] Hubel 和 Wiesel SF “jij 42” #33 Ze” A A a AB ES ER EY Fukushima 
(1980,1995) 在 设计 一 个 称 为 神经 认 知 机 的 学 习 机 的 过 程 中 所 利用 。 然 而 ， 这 个 学 习 机 
以 目 组 织 的 形式 运行 ， 而 图 4-27 氛 述 的 着 积 网 络 使 用 标定 的 样本 以 监督 的 形式 运行 。 

习题 

XOR 问题 
4.1 AT ATE XOR 问题 ， 图 4-28 m- :个 和 包 

括 单 个 隐藏 神经 元 的 神经 网 络 ， 这 个 网 络 可 以 看 作 


是 在 4.5 广 中 所 考虑 的 蔡 代 模型 。 通 对 构建 (a) 决 策 e 
区 域 和 (pb) 网 络 的 真 值 表 , 证 明 图 4-28 表示 的 网 络 图 4.28 
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解决 了 XOR 问题 。 

4.2 使 用 反 疝 传播 算法 为 图 4-8 所 尖 的 神经 网 络 计算 一 组 突 触 权 值 和 丛 置 的 值 以 解决 
XOR 问题 。 恨 设 非 线性 使 用 一 个 logistic PAR. 
反问 传播 学 习 

4.3 ”站 权 值 和 里 新 中 包含 的 动量 项 可 以 认为 是 满足 启发 3 和 4 的 机 制 ， 它们 为 加 速 反 问 
传播 算法 的 收敛 提供 指导 ， 这 在 4.17 节 中 进行 讨论, 说明 这 个 陈述 的 正确 性 。 

4.4 动量 项 oP Ripe AE O<a< 1 范围 的 正 值 。 如 采 o 是 赋 子 在 -1<aus0 之 间 的 
一 个 伍 值 ， 醋 究 在 这 样 的 条 忻 下 使 得 忒 (4,41) 关 于 时 间 上 的 行为 差异 。 

4.5 考虑 包括 单个 权 值 的 网 络 的 简单 例子 ， 它 的 代价 阴 数 呈 

E(w) = w+ 
其 中 wo. k Hk, 是 常数 。 用 上 其 有 动量 天 的 反 向 传播 算法 最 小 化 (ww)。 

探索 包含 的 动量 项 常数 a 怎样 影响 学 习 过 程 。 特别 注意 使 用 a RETR. 

4.6 在 4.7 节 中 我 们 给 册 了 多 层 感 知 器 分 类 器 { 非 线性 性 使 用 logistic 函数 ) 属 性 的 定性 
分 析 ， 它 的 输出 提供 后 验 分 类 概率 的 估计 。 这 个 性 质 假设 训练 集 足 够 天， 并且 用 来 训练 网 络 
的 反 向 传播 算法 不 会 在 一 个 局 部 最 小 上 被 阻塞 。 补 充 这 个 性 质 的 数学 细节 。 

4.7 从 式 (4.70) 所 定义 的 代价 函数 开始 ， 推 导 式 (4,72) 的 最 小 化 解 和 式 (4.73) 定 义 的 民 
价 图 数 的 最 小 值 。 

4.8 式 (4.81) 到 (4.83) 定 义 图 4- 1 中 的 多 层 感 知 散 实现 的 盘 近 国 数 F(w,x) 的 偏 导 数 ， 


(aH AUTR: 
Eln) = Ald - FOwx)] 
Ji = ol D ywy) 
其 中 w eM Hf i Bey 的 罕 触 权 值 ，y 是 神经 元 i 的 输出 ; 
Cc) 非 线 性 性 ; 
l 
plv) =a expl 一 p) 
36 AIA 


4.9 ER 2 BEATE Bate Re ee) LA OSE, LIP US MRP A 
E. HE — PES TAY PS ES BA SRI PK 

4.10 在 多 重 父 驻 确 认 中 并 设 有 如 坚持 到 底 方法 中 那样 在 训练 数据 和 测试 (确认 ) 数 据 之 
间 有 明确 的 区 分 。 使 用 多 重 交 叉 傅 认可 能 产生 有 偏 估 计 吗 ? 证 明 你 的 答案 。 
网 络 修剪 技术 


4.11 模型 选择 的 统计 学 准则 ， 如 Rissanen 最 小 描述 长 度 (MDL) 淮 则 和 Akaike 的 信息 论 


原则 (AIC)， 共 用 一 个 常用 的 组 成 形式 : 
模型 复杂 度 准 则 ) = (对 数 似 然 函数 )+ (模型 复杂 度 短 办 ) 
讨论 用 于 网 络 修 前 的 权 值 吝 减 和 权 值 消除 方法 是 如 何 符合 这 种 形式 的 。 
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4.12 (DEFA. 105) 25h ETE 3 的 公式 ， 
(DREF BR SEAR BS ARB Hessian EER EL et A E 
H = diagl hu, hn, hep] 

eit, HHE WER AR ASG Re PE ORB w 的 显著 性 $ 。 
Bz tS) fF SS) BD see ae 

4.13 delta-bar-delta 学 习 规 则 (Jacobs ,1988) 代 圾 反问 传播 算法 的 一 个 修改 形式 ， 它 基于 
4.17 下 中 所 述 的 后 发 。 在 这 个 规则 中 ， 网 络 中 的 每 个 帘 触 权 值 被 指定 一 个 自身 的 学 习 率 大 
a. EIRA EC AMAA Asko eee, AIA, SE Etn) 在 数学 上 是 相似 于 
(4. 2) RRO REE (OA, JERR OT ER E m ees EEA Ae E, 

(a) HEF BEALE (Cn lay, Cn TRIAL, HP y (AA EF SAE w, {nn) 的 学 习 率 
参数 。 

(hb) 因此 ， 说 明基 于 (a) 的 结果 的 学 习 率 参数 调整 是 完 件 符合 4.17 节 中 启发 3 和 启发 4 
HY a 
— Brae At Ar E 

4.14 TEL (4.39) Pr AAR EE BP oe A A RA A BE BE 
(Battii ,1992)。 讨 论 这 种 说 法 的 正确 性 。 

4.15 PASK(4.133) P Bon MUAH RA, HES Hesteness-Stiefel 公式 


_ ri(nd(r(n) - r(n - 1) 
pes s {n —-1)r(n -1) 


其 中 s(n AA, rn ERASE PHAM. ALi Peg, EFR. 134) be 
Polak-Ribiére 23h PI (4.135) HRY Fletcher-Reeves 公式 。 


计算 机 实验 
4.16 研究 使 用 sigmoid 非 线 性 旺 数 的 反 回 传播 学 习 方法 获得 一 对 一 酉 射 ， 描 述 如 下 ， 
[fd ot 
2.7(x) = logox, l<xx=<lO 
3. fix) =exp(— x), lea=10 
4. f(x) = sinx, O<x<5 


(a) 建 立 两 个 数据 集 ， 一 个 用 于 网 络 训 练 ， 另 一 个 用 于 测试 

(b) 假 设 具 有 单个 隐藏 层 ， 利 用 训练 数据 集 计算 网 络 的 突 触 权 值 。 

(co) 通过 使 用 浏 试 数据 求 网 络 计算 精度 的 值 。 

使 用 单个 隐藏 层 ， 但 隐藏 神经 元 数目 可 变 ， 研 究 网 络 性 能 是 如 何 受 隐藏 层 大 小 变化 影响 
的 。 

4.17 表 4-9 的 数据 表示 澳大利亚 野人 锡 上 服 睛 鼎 状 体 的 重 景 为 年 龄 的 函数 。 没 有 简单 的 解 
析 晃 数 可 以 糖 确 插值 这 些 数 据 ， 因 为 我 们 并 没有 一 个 单 值 函 数 。 相 反 ， 利 用 一 个 负 指 数 我 们 
有 这 个 数据 集 的 一 个 非 线 性 最 小 平方 模型 ， 表 示 为 

y = 233,846(1 — exp(— 0.006042x)} +€ 
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He: 是 误差 项 ， 
利用 反问 传播 算法 ， 设 计 一 个 多 层 感 州 咽 ， 它 能 够 为 这 个 数据 集 提供 一 个 非 绕 性 最 小 平方 带 
Wi. 与 前 述 的 最 小 平方 模型 比较 你 的 结果 。 


表 49 BAAS RRA 





Be 


{meg} 
21.66 
22.75 
22.3 

31.25 
44.79 
40.55 


午 龄 
(K) 
75 
82 


重量 


img) 
94.6 
5 
105 
101.7 
102.9 
110 
164.5 
134.9 
1370. 65 
140.5% 
155.3 
152,2 
144.5 
142.15 
139.81 
153.22 
145.72 
161.1 
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年 龄 
(A) 
218 
218 
219 
224 
225 
227 





EH 
(mg) 


i418 


173.03 
173.534 
173.86 
177.608 
173.73 
159,9% 
161.29 
187.07 
176.13 
183.4 

186.26 
189. 66 
186.09 
186.7 

186.5 

195.1 

216.41 


fal 
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5.1 简介 


HH MABMAMAMW AS MAK. Ae aR ee PE A] VA a tee 
SORRA. 这 种 技术 在 统计 学 中 通称 为 随机 逼近 。， 在 本 章 中 我 们 将 神经 网 络 的 设计 看 
作 是 一 个 高 维 空间 中 的 曲线 拟 合 (逼近 ) 问 题 ， 从 而 采用 完全 不 同 的 方法 进行 巩 计 。 按 照 这 种 
观点 ， 学 习 等 价 于 在 多 维 空间 中 寻找 一 个 能 够 最 佳 拟 合 训练 数据 的 曲面 ， 这 里 的 "最 佳 拟 合 - 
准则 是 在 某 种 统计 意义 上 的 最 佳 拟 合 。 因 此 ， 汉 化 等 价 于 利用 这 个 多 维 曲 面 对 测 试 数据 进行 
插值 。 上 述 观 点 是 径 向 基 函 数 方法 的 出 发 点 ， 径 辐 基 些 数 方法 在 其 种 程度 上 利用 了 多 维 空间 
中 传统 的 严格 插值 法 的 研究 成 果 。 在 神经 网 络 的 背景 下 ， 隐 藏 单元 提供 一 个 “ 画 数 " 集 ， 该 画 
数 集 在 输入 模式 (向 量 ) 扩 展 至 隐藏 空间 时 为 其 构建 了 一 个 任意 的 “ 基 "; 这 个 晴 数 集中 的 函数 
就 被 称 为 径 向 基 函 教 上 - 。 径 向 基 哨 数 首先 是 在 实 多 变量 插值 问题 的 解 中 引信 的 。 这 方面 的 早 
期 工作 在 Powell(1985) 中 综述 ， 而 较 新 的 工作 则 在 Lightt1992b) 中 综述 。 径 癌 基 肯 数 是 目前 数 
(AST OBE FTE BK. 

RAT RN Re RB ASMA He, A eR AA este FA ITE 
A. MARAE AURA DAR, CD SoA. ARENA p 
仅 有 的 一 个 隐 层 ， 它 的 作用 是 从 输入 空间 到 隐藏 空间 之 间 进 行 非 线性 变换 ; 在 大 多 数 情 况 下 
隐藏 空间 有 较 高 的 维 数 。 输 出 层 是 线性 的 ， 它 为 作用 于 输入 屋 的 激活 模式 (信和 号) 提供 啊 应 。 
关于 非 线 性 变换 之 后 跟随 线性 变 措 的 理论 基础 其 数学 依据 可 以 妃 湖 到 Cover( 1965) 的 一 篇 早 
Wits, MMR ee, 一 个 模式 分 类 问题 如 果 贞 射 到 一 个 丙 维 空间 将 会 比 上 映射 到 一 个 低 维 
空间 更 可 能 是 线性 可 分 的 ， 这 就 是 径 问 基 斑 数 网 络 的 隐藏 空间 的 维 数 通 贡 都 较 遍 的 原因 。 还 
有 另外 一 个 重要 的 原因 ， 就 是 隐藏 空间 的 维 数 与 网 络 能 特 逼 近 一 个 光 消 的 输入 人 ~ SR A 
着 直接 的 联系 (Mhaskar,1996; Niyogi and Girosi, 1996); 隐藏 空间 的 维 数 越 高 ， 返 近 就 越 精 确 。 


本 章 的 组 织 


本 章 的 主要 部 分 组 织 如 下 .我 们 将 有 关 构 建 RBF 网 络 的 基础 放 在 5.2 TAS.4AP. oP 
个 步骤 来 做 到 这 一 点 。 第 一 步 ， 描 述 Cover 关于 模式 可 分 的 定理 ; 将 利用 XOR 问题 来 阅 释 该 
定理 的 应 用 。 在 5.3 节 将 考虑 插值 问题 及 其 他 与 RBF 网 络 的 关系 。 

在 得 到 RBF 网 络 如 何 工作 的 一 个 了 解 之 后 ， 我 们 将 进 人 本章 的 第 二 部 分 ， 这 部 分 包括 
5.4 节 至 5.9 节 。 在 5.4 节 中 讨论 监督 学 习 是 一 种 不 适 定 的 超 曲 面 重 建 问 题 的 观点 。 在 5.5 
节 将 详细 论述 Tikhonov 的 正则 化 理论 及 其 在 RBF 网 络 中 的 应 用 。 这 个 理论 将 很 自然 地 导出 在 
5,6 节 中 正则 化 网 络 的 公式 。 这 类 RBF 网 络 对 计算 的 要 求 很 高 。 为 了 减少 计算 复 末 性 ， 在 
5.7 节 将 讨论 一 个 被 称 为 广 闵 RBF 赔 络 的 改进 正则 化 网 络 。 和 在 5.8 节 我 们 将 重新 讨论 XOR 问 
题 ， 并 且 展 示 RBF 两 络 是 如 何 解 诀 这 个 问题 的 . 在 $.9 节 将 描述 一 种 用 于 选择 正则 化 参数 恰 
当 值 的 广义 交叉 确 鹤 方法 ， 从 而 完成 正则 化 理论 的 研究 。 
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5.10 Fife RBF OSA IEE. 5.16 市 将 RBF AAH ZERA EE, a 
PE REA BB te a ER PO A R El = 

E 5.12 世 计 论 核 回归 估计 ， 它 是 关于 REF 网络 的 另 - ` 种 观点 的 基础 。 我 们 将 大 量 处 型 
ae BEAT AF Re ISI Se SOC RBF 网 络 联系 起 来 、 

5.13 节 和 5,14 节 是 本 章 的 最 后 部 分 。 在 5.13 节 提 出 设计 RBF 网 络 的 四 个 不 同 的 学 习 
策略 。 在 5.14 节 摘 述 一 个 用 RBF 网 络 进行 模式 分 类 的 计算 机 试验 。 

TE 5.15 入 以 全 些 关于 RBF 网 络 的 最 后 的 思想 作为 本 章 的 结束 。 


5.2 模式 可 分 性 的 Cover 定理 


当 用 径 问 基 哨 数 神 经 网 络 来 解决 一 个 复 傣 的 模式 分 类 任务 时 ， 问 题 的 茜 本 解决 可 以 通过 
用 非 绕 性 方式 将 其 变换 到 一 个 高 维 空间 。 它 的 潜在 合理 性 来 白 模 式 可 分 性 的 Cover EH, A 
证 理 可 以 定性 地 表述 如 下 (Cover,1965) 

将 复 染 的 模式 分 类 问题 非 线 性 地 投射 到 高 维 空间 将 比 投 射 到 低 维 空间 更 可 能 是 线性 可 分 
的 。 

MGB 3 章 对 单 层 感知 解 的 研究 中 知道 ， 一 量 模式 具有 线性 可 分 性 ， 则 相应 的 分 类 问题 相对 而 
BME A ae A., 我 们 通过 研究 寞 式 的 可 分 性 可以 深入 了 解 RBF 网 络 作为 模式 分 类 
ag de Ba LIEKI. 

考虑 一 族 曲 面 ， 每 一 个 曲面 都 卓然 地 将 输入 空间 自然 地 分 成 丽 个 区 域 。 用 多 代表 ON 个 模 
TAC MH Hx,, X, oo, xy 的 集合 ， 其 中 每 一 个 模式 都 分 属于 两 个 类 稳 ， 和 守 , 中 的 一 类 。 如 果 
在 这 一 族 有 师 面 中 存在 一 个 蝗 面 能 够 将 分 别 属 于 多 ， 和 光 , 的 这 些 点 分 成 两 部 分 ， 我 们 就 称 这 些 
操 的 二 分 (二 元 划分 ) 关 于 这 族 曲 面 是 可 分 的 。 对 于 每 一 个 模式 xE 叶 ， 定 义 一 个 由 一 给 实 值 
Mie (001i=1，2，…，mi} 组 成 的 向 量 ， 表 示 如 下 : 

mx) = [pixa Pn Gd]? (5.1) 
IRR x Ze m 维 输入 空间 的 一 个 向 量 ， 则 向 量 w(x) 将 mo 维 输 入 空间 的 点 映射 到 新 的 m, 
维 空 间 的 相应 的 点 上 。 我 们 将 wo, (x) 称 为 隐藏 台数， 因为 它 与 前 馈 神 经 网 络 中 的 隐藏 单元 起 
者 同 祥 的 作用 。 相 应 地 ， 由 隐藏 函数 集合 fg (x) 六 ,所 生成 的 空间 被 称 为 隐藏 空间 或 者 料 征 
空间 。 

我 们 称 一 个 关于 允 的 二 分 | 全 | Cike WOW, MRE m, 维 的 向 基 w 使 得 
( Cover, 1965 ) 

Ww px) > 0, xed, 


w'o(x) < 0, xe £, a 
Fa? 
wo(x) = 0 
定义 的 超 平面 描述 中 空间 (也 就 是 隐藏 空间 ) 中 的 分 离 曲面 。 这 个 超 平 面 的 道 像 ， 邵 
X:w p(x) = 0 (5.3) 
ne Sin A 23 [al FP Aar BS Hh E o 


考虑 一 个 利用 r KAAN A Bp FRA ER HEA A SRA — + BR, ST 
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FB fe AR Ee HE PRS Jós 


一 





OE | EE | a m= FT 








Mp BS a es HY ERRA r MAHR “omy 维 空间 的 7+ A R a aE ANAE x HE 
标的 一 个 了 次 齐 深 方 程 ， 表示 为 


Qi a Ti TT, = 0 (5.4) 
Dee) dg SRE E Mig a 
其 中 x%, EAP St x 的 第 i 个 元 系 。 汶 了 用 并 兢 形 式 来 表达 方程 ， 将 xz 的 值 置 为 单位 值 1。 
x 中 项 x, BIr 阶 来 积 就 是 x %,，…x，， 被 称 为 单项 式 。 对 于 一 个 m 维 的 输入 空间 在 式 (5.4) 
中 一 共有 
( mo = r)! 
Malr! 


PAMA. A.A ATS a a ERATA AE (— BE). Cha at 
H FB ie) ALBERT O AAP ER H HB BY — UK A aT), EATARRA NLR 5-1， 该 图 
RHE EWA 73 la eS. TP. REA SPARE BAR TY OE, ER 
H ap: MAAR RT PPE; RTT RE 





a) b) c} 


图 5-1 一 维 平面 上 的 5 个 点 的 不 同 集合 的 中- 可 分 的 一 分 的 3 个 例子 ， 
a] 线 件 可 身 的 二 分 “上 吕 球 形 可 分 的 二 分 “一 次 丁 从 的 一 分 
在 一 个 概率 实验 中 ， 一 个 模式 集合 的 可 分 性 成 为 一 个 依赖 于 选择 的 二 分 以 及 输入 空间 中 
模式 的 分 布 的 随机 事件 。 假 设 激 活 模 式 x, x, oo, My 是 根据 输入 空间 中 的 概率 特性 而 独 
站 选取 的 。 同 时 假设 所 有 的 关于 完 = tx, 1 的 二 分 都 是 等 可 能 的 。 令 PON, m ) 表 示 基 一 随 
机 选取 的 二 外 是 中 可 分 的 概率 ， 这 里 被 选中 的 分 离 曲 面 的 类 具有 m SEMA. ARSE Cover 
{1965)， 我 们 可 以 将 PCN, m ORRA 

] N-1 k NI 
P(N, m) = (=) >| | 

ZE, A N-1 Alm 的 二 项 式 系 数 定 义 如 下 ; 
(J= Meade i= mo) 


m! 


(5.5) 


FTL 


式 (5.5) 体现 Cover 的 可 分 性 定理 对 于 随机 模式 * 的 本 质 它 说 明 累 计 二 项 概率 分 布 ， 相 当 
THCN -IKEE (m - 了 次 或 更 少 次 头像 向上 的 概率 。 

尽管 在 式 (5.5) 的 推导 中 遇见 的 陪 流 单元 曲面 是 一 个 多 项 式 的 形式 ， 从 而 与 我 们 通常 在 
径 疝 基 范 数 网 络 中 用 到 的 有 所 不 同 ,， 但 是 该 式 的 核心 内 容 却 具有 普遍 的 适用 性 。 特 别 地 ， 阁 
隐藏 空间 的 维 数 m 越 高 ， 则 概率 PON, m, ) 就 越 趋向 于 1。 总 之 ， 关 于 模式 可 分 性 的 Cover 
定理 主要 包含 下 南 两 个 基本 部 分 : 

1. 出 p (x) me SORRY eR PR ESE EPA, GA x 是 输入 向 量 ,， 晶 i=1,，2, +, mo 

2. 高 维 数 的 隐藏 空 间 ，、 这 里 的 高 维 数 是 相对 于 输入 空 疗 而 言 的 。 维 数 由 赋 纵 mm, 的 值 
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(BPRS BOC TA) 决定 。 

ROA THAR, AAE Sh AR AER 4p |] BE SR PE HiT ey AE Ys A Se ET BAR 
维 数 空间 更 可 能 是 线性 可 分 的 。 但 是 需要 强调 的 是 ， 有 时 使 用 非 线 性 映射 ( 即 第 1 部 分 ) 就 足 
跪 导 致 线性 可 分 ， 而 且 不 必 天 高 隐藏 单元 空间 维 数 ， 如 下 面 例 子 所 说 明 的 却 样 。 

例 5.1 XOR 问题 为 了 说 明 模 式 的 可 分 性 思想 的 意义 ， 考 虑 一 个 简单 却 又 十 分 重要 
的 XOR 问题 . 在 XOR 问题 中 有 四 个 二 维 输 入 空间 下 的 点 (模式 ); (1,1), (0,1), (0,0) 和 
(1,0), S074 $-2a。 要求 建 立 一 个 模式 分 类 器 产生 二 值 输出 啊 应 ， 其 中 点 (1,1) 或 10,0) 对 应 
Fiat 0， 总 (1, 人 0 或 (0,1) 对 应 于 输出 1。 因 此 在 输入 空间 中 依 Hamming 距离 最 近 的 点 映射 
到 在 锦 出 空间 中 最 大 分 离 的 区 域 . 

cE — If Gauss RARU F: 

p(x) = el 和 =[11r 


p(x) = ee t = 0,0] 
这 样 我 们 可 以 得 到 以 上 四 个 总 作为 输 和 时 的 结果 ， 如 表 $-1 所 示 。 如 图 5-2b， 输入 模式 被 映 
HTE p -=- 因 平 面 上 。 这 里 我 们 可 以 看 到 输入 (0,1，(1,0) 与 剩 下 的 两 个 输 和 人 (1,17，(0,.0) 是 
线性 可 分 的 。 然 后 ， 我 们 将 g(x) 和 wp (x) 作为 一 个 线性 分 类 器 如 感知 器 模型 的 输入 ， 则 
XOR [Aj pte 7) me T o a 


(0.1) (1,1) 
& ® 





(0, 0) (1, 0} G Q.2 0.4 {).6 (5 1.0) ] > 
+ s i 
a) b} 
图 5-2 


al XOR 问题 的 4 个 模式 DR 
表 5f 用 于 例 5.1 的 XOR 问题 的 隐藏 函数 设置 


输入 模式 x 第 一 隐藏 函数 op, (x) PF fee PB oy (x) 
(1,1) 1 0.1353 
(0,1) 0.3678 0.3678 
(0,0) 0.1353 | 
{1,03 0.3678 0.3678 
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在 这 个 例子 中 隐 状 空间 的 维 数 相对 于 输入 空间 并 没有 增加 。 也 就 是 说 ， 以 Gauss RRE 
为 非 线 性 的 隐藏 函数 ， 足 以 将 XOR 问题 转化 为 一 个 线性 可 分 问题 。 


曲面 的 分 丽 能 力 


式 (5.5) 对 子 在 多 维 空间 中 随机 指 定 输 入 模式 线性 可 分 的 期 望 最 太 数 目 有 重要 意 余 。 为 
了 研究 这 个 问题 ， 如 前 所 述 将 x), x, oe, xy 视力 一 个 随机 模式 (加 有 唱 ) 序 列 。 令 N 为 一 个 
随机 变量 ， 定 闵 为 该 序列 为 p 可 分 时 的 最 大 整数 ， 这 里 具有 m 的 自由 度 。 于 是 由 式 
(5.5) 我 们 可 以 导出 当 N= nr 时 的 概率 


afm — ] 
PN e ale Pinno = Plerin e {=} (” joe = 0.1.2, (5.6) 
b 一 


为 了 解释 上 述 绪 果 ， 我 们 回想 一 下 负 二 项 分 布 的 定 尺 。 该 分 布 相当 子 在 一 组 重复 的 
Bernoulli 实验 中 有 r REJ., 次 失败 是 最 后 一 次 是 成 巧 的 概率 。 在 这 种 概率 实验 中 ， 每 一 
次 实验 只 有 两 种 绪 采 ， 不 是 成 功 就 是 和 失败， 并 且 成 功 和 失败 的 概率 在 整 组 实验 中 都 是 相同 
Ho & p 代表 成 功 的 概率 ，#9 (RATHER, pt g=1。 负 二 项 分 布 定 义 (Feller,1968 ) 如 
F: 

A _ yg" +k - ) 
k 


E p= q= 12H RA RASER H k tren 的 特殊 情况 下 ， 上 述 的 负 二 项 分 布 


REAR 
flkin - k=] - G han = 0,1,2, 


根据 下 述 定 六 ， 我 们 现在 可 以 春 出 由 式 (5.6) 所 表示 的 结果 正 是 人 负 二 项 分 布 ， 只 不 过 右 移 了 
m TAMA AS S m 和 11/2。 这样 ，N 相当 子 在 一 组 抛 硬币 的 实验 中 出 现 第 m, 次 失败 
的 "等待 时 间 ”。 随 机 变量 N 的 期 望 和 中 位 数 分 别 为 
ELN] = 2m, (5.7) 
和 Median[ N] =2m, (5.8) 
因此 ， 我 们 可 以 得 到 Cover EIEN — THEI. FSS AAA RAE tA eH T : 


一 组 随机 指定 的 输入 模式 {向量 ) 的 集合 在 mi 维 空 间 中 线性 可 分 ， 它 的 元 素数 目的 最 大 
HBF T 2m, 。 

该 结果 表明 ，2m, 是 对 一 族 具 有 m 维 昌 由 度 的 决策 曲面 的 分 离 能 力 的 自然 定义 。 在 一 
定 芹 度 上 ,一 个 申 面 竟 分 离 能 力 与 第 2 章 讨论 的 VC 维 数 的 概念 有 着 紧密 的 联系 ， 
5.3 插值 问题 


从 关于 模式 可 分 性 的 Cover 定理 得 到 的 重要 由 想 是 在 解决 一 个 非 线 性 可 分 的 模式 分 类 问 
题 时 ， 如 所 将 输入 空间 映射 到 一 个 新 的 维 数 足 人 够 高 的 空间 去 ， 将 会 有 助 于 问题 的 解决 。 基 本 
说 来 用 一 个 非 线性 变 多 将 一 个 非 线性 可 分 的 分 类 问题 转变 为 一 个 线性 可 分 问题 。 同 样 地 ， 我 
们 可 以 用 非 线 性 变换 将 一 个 复杂 的 非 线性 姜 波 问题 转化 为 一 个 较 简单 的 线性 滤波 问题 。 
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现在 考虑 一 个 由 输入 层 、 一 个 中 间 层 和 只 有 一 个 输出 单元 的 输出 层 组 成 的 前 局 网 络 。 我 
们 选择 只 有 一 个 输出 单元 的 输出 层 的 目的 主要 是 为 了 简化 说 明 又 不 和 失 一 般 性 。 设计 这 个 网 络 
实现 从 输入 圣 间 刘 隐 藏 空间 的 一 个 非 线性 映射 ， 随 后 从 隐藏 空间 到 输出 空间 则 是 线性 映射 。 
令 mo 为 输入 空间 的 维 数 。 这 样 从 总 体 上 看 这 个 网 络 就 相当 于 一 个 从 m 维 输入 空间 到 一 维 
输出 空间 的 上 映射， 可 以 写成 如 下 形式 : 
sR > RR (5,9) 
我 们 可 以 将 映射 视 次 一 个 超 曲 面 (图 )TcC 民 %*'， 就 好 像 我 们 可 以 将 一 个 最 基本 的 映 
ffs: 司 一 局 ， 其 中 s(x) =x*， 视 为 司空 间 中 的 一 条 抛物 线 一 样 。 超 曲面 全 作为 输入 的 当 
Boe HSS AEH a. ASCP, BAT RRB. HEE Hie aye 
声 。 学 习 中 的 训练 阶段 和 汉化 阶段 可 叙述 如 下 : 
。 训练 阶段 由 曲面 工 的 拟 合 过 程 的 最 优化 构成 ， 它 根据 以 输入 - 输出 样本 (模式 )} 形 式 
呈现 给 网 络 的 已 知 数据 进行 。 
. 认 化 阶段 的 任务 就 是 在 数据 点 之 间 进 行 插值 ， 播 值 是 在 息 实 曲面 下 的 最 佳 副 近 的 所 
合 过 程 产生 的 约 吕 曲面 十 讲 行 的 。 
这 样 我 们 将 引出 具有 篮 和 久 历 史 的 高 维 空间 多 变量 播 值 理论 (Davis,1963 )。 从 严格 意义 上 说 ， 
JAE BH OT PAR ON F ， 
给 定 一 个 包含 NARRER x, CR i= 1,2,°°,N | 和 相应 的 入 个 实数 的 一 个 集 
SidoRlisi,2,-,Nl, FR-+*+ BK FP: BR BETERA: 
F(x) = d, i= 1,2, N (5.10) 


X TRER ee BSE a, AE h RAA FP) et AA A HR E 
RERA REAREA Po F RA FIR Powell, 1988 )、 


F(x) = Dd) we(|lx-x; ||) (5.11) 


其 中 pt Bx- 7ii=1,2,…,NI 是 NN 个 任意 (一 般 地 是 线性 } 函 数 的 集合 ， 称 为 径 向 基 水 
i; :中 表示 范 数 ， 通 常 是 局 儿 里 德 范 数 。 已 知 数 据 x ER, =t, 2,0, N 是 径 向 基 
图 数 的 中 心 。 

窒 (5.10) 的 插值 条 件 代 人 式 (5.11) 中 ， 我 们 可 以 得 到 一 组 关于 未 知 系数 ( 权 值 ) 的 展开 
w, | ZR TES Fet: 


i, o TT Oy wy d, 
eu i d 
a a de (5.12) 
Ga Pam UO Day Wy dy 
其 中 pa = pi -x i, G, Dsl, 2, 7, N (5.13) 
> deld, dig 5 dy] W= | wy, Way t'y wy |" 


PAPA Nx 1 向 量 d 和 Ww 分 别 表示 期 望 输 出 向 量 和 连结 权 值 向 量 ， 其 中 N 表示 训练 样本 
AIS. S ORRICK A oF Nx N 阶 的 和 矩阵; 
® = ipi Gi) = 1,2,.,N| (5.14) 
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Fee Ae. FERS DAS MRR 
aw = x (5.15) 
假设 o 为 非 奇 剧 矩 阵 ， 因 此 而 存在 O C., 这样 我 们 就 可 以 从 式 (5.15}) 中 解 出 权 值 向 量 w， 表 
W 二 Dx (5.16) 
MABE: 我 们 竺 么 能 保证 捕 值 矩阵 © BIER RE? BLEW, STK BR MBS 
来 说 在 某 种 条 件 下 上 述 问 题 的 答 党 可 以 由 下 面 的 重要 定理 给 出 。 


Micchelli 定理 

Micche]ii( 1986) 十 明 San PEE: 

wo RIK 1 是 辐 m 中 和 N 个 互 不 相同 的 点 的 集合 ， 则 Nx N Bese OCF § AE 
7E FP = of i A; 一 A, | ) 是 非 奇 异 的 。 


有 大量 的 径 向 基 函 数 满足 Micchelli CH, MF PRISER APA BiH me 
By 
1. 多 二 次 (Multiquadrics) RX - 


g(r) = (r +c)” c>,rER (5.17) 
2, J XK (Inverse multiquadres } 图 数 : 
g(r) =o e>O0,rER (5.18) 
3. Gauss pk BY - 
2 
olr) = expl - 33] o> 0r R (5.19) 


2 WR PAS A & — Ye R RAH F Hardy( 1971) 

ASA (SIDES IDMRNEMEBREIEARM, DOEMAWRA Ax i H 
Ati RE ET o SEAT RRS RR ER, 与 所 给 样本 的 长 度 N 和 向 量 ( 点 Yx, 的 维 
数 mn 无 关 。 

AC. IDES 2K pA ANE (5.19) BY Gaus 函数 其 有 一 个 共同 的 性 质 ， 它 们 都 是 局 部 
化 的 明 数 ， 尖 为 当 r 一 “时 ，g{ rr) 一 0。 以 上 面 两 个 函数 作为 径 向 基 东 数 所 组 成 的 插值 算 阵 二 
部 是 正定 的 。 与 此 相反 ， 而 由 式 (5.17) 所 定义 的 多 二 次 函数 是 非 局 部 性 函数 ， 因 为 当 row 
时 ，qpt AR; 与 其 相对 应 的 插值 矩阵 二 有 (NN 一 1) 个 负 的 特征 值 ， 只 有 一 个 正 的 特征 
值 ， 所 以 不 是 正定 的 (Micchelli 1986)。 但 值得 注意 的 是 在 Hardy 的 多 二 次 函数 基础 上 建立 的 
插值 矩阵 o 却 是 非 奇异 的 ， 因 此 适合 在 RBF 网 络 设计 中 应 用 。 

一 个 更 加 值得 注意 的 是 径 千 基 男 数 若是 无 限 增长 的 ， 例 如 煞 二 次 函数 ， 与 其 他 产生 糯 定 
搬 值 矩阵 的 确 数 相 比 ， 它 能 以 更 高 的 精度 逼近 一 个 光滑 的 输 人 -输出 映射 ，Powel]{1988) 讨 
论 这 个 令 人 惊奇 的 结果 。 


5.4 作为 不 适 定 超 曲 面 重 建 问题 的 监督 学 习 
企 某 些 任 务 中 由 于 对 新 数据 具有 较 差 的 滋 化 性 能 ， 这 样 利 用 上 述 严格 的 插值 方法 来 训练 


ww ai bbt.com TAAWAOAA 





190 Se 


一 个 RBF 网 络 并 不 是 一 个 好 办 法 。 这 是 因为 如 果 训 练 样本 中 的 数据 点 的 数目 还 远大 于 固有 
的 物理 过 程 的 自由 上 典 ， 并 且 我 们 限制 径 向 基 范 数 的 个 数 与 数据 点 的 个 数 是 相同 的 ， 这 样 问题 
就 为 超 定 的 。 结 果 神 经 网 络 就 会 因为 输 人 数据 的 特性 (idiosyncrasy) 或 者 噪声 干 掩 而 拟 合 到 一 
个 错误 的 曲面 ， 从 而 导致 汉化 性 能 降低 (Broomhead and Lowe, 1988 ) 。 

为 了 进一步 加 深 对 过 拟 合 问题 的 理解 并 有 旦 如 休克 服 这 个 问题 ， 我 们 可 以 先 回 到 这 样 观 
点 : 训练 神经 网 络 使 其 能 够 根据 输 人 模式 找到 相应 的 输 册 模式 ， 它 的 设计 相当 于 学 习 一 个 超 
曲面 { 即 多 维 上 映射 ) 司 其 能 够 根据 输 人 确定 输出 。 换 名 话说 ， 学 习 可 以 被 视 为 络 定 一 组 可 能 是 
稀疏 的 数据 点 的 超 曲 面 重建 问题 ， 

恨 据 Keller(1976) 和 Kirsch(1996)， 如 果 有 柑 关 两 个 问题 。 系 统 地 解决 上 其中 的 任意 一 个 问 
题 都 必须 部 分 地 或 者 全 部 二 知道 关于 男 -个 问题 的 知识 ， 那 么 我 们 就 称 这 两 个 问题 是 互 道 
的 。 通 贡 我 们 发 班 其 中 一 个 问题 比 男 一 个 问题 研究 得 单 ， 并 且 可 能 研究 得 更 透彻 ， 那 么 这 个 
问题 就 被 称 为 正 问题 (direet problem) ， 而 另 一 个 阿 题 就 被 称 为 道 问题 (inverse problemj 。 然 而 
从 数学 和 外敌 来 说 ， 正 问题 和 道 问 题 之 间 有 着 虹 重 要 的 区 别 。 特 别 地 ， 所 研究 问题 是 适 定 的 
(well-posed) 还 是 不 适 定 的 ( 记 -posed)。“ 适 定 ” 这 个 术语 在 20 世纪 初 从 Hadamard 的 那个 时 期 起 
钢 已 经 在 应 用 数学 中 使 用 。 为 了 解释 这 个 术语 ,和 假设 我 们 在 度量 空间 有 一 个 定义 域 革 和 一 
个 全 域 耻 ， 它 们 出 一 个 固定 的 但 是 未 知 的 映射 了 联系 着 。 如 果 下 面 三 个 条 件 均 满 足 的 话 、 我 
们 就 称 上 映射 了 的 重建 问题 是 进 定 的 (TIKkhonovr and Arsenin, 1977; Morozov, 1993; Kirsch, 1996) - 

1. 看 在 性 。 对 每 一 个 输 人 回 量 xE 名 ， 都 存在 一 个 输出 y = f(x), HY yes, 

2. 惟一 性 。 对 任何 一 对 输 人 人 向量，tE 史 ， 当 且 仅 当 X=t 时 有 f(x) = f(b), 

3. 连续 性 。 上 映 射 是 连续 的 ， 即 对 任何 s>0， FH S = 3(e) 使 得 当 0, (x,t) < SI, o, f 
(x) f(O) <e Ri, A eO, ORRAT RERNA a PRES. XE OS 5-3 
所 示 。 连 统 性 通常 也 被 称 为 稳定 性 。 


如 果 上 述 的 任何 一 项 条 件 不 满足 ， 那 么 问题 就 称 为 

不 适 定 的 。 从 根本 上 说， 一 个 问题 如 果 是 不 适 定 ing, 

的 ， 说 明 大 量 的 数据 集合 里 只 包含 着 很 少 一 部 分 的 

有 用 信息 。 eo a 
在 我 们 现时 的 背景 下 ， 负 责 产 生 训练 数据 ( 例 

如 语音 、 图 和 象 、 雷 达 信 号、 声 纳 信号 和 地 震 数 据 图 5-3 fe BRA CAL A) BIEL AS 

285) fy Oy 2 Se SE AE EE, SRI, Meee RATA A 


据 的 物理 形式 学 习 ， 看 作 超 曲面 的 重建 问题 ， 基 于 后 面 的 原因 却 是 一 个 不 适 定 的 逆 问 题 。 原 
因 如 下 : 第 一 ， 存 在 性 准则 可 能 不 满足 ， 因 为 对 于 每 一 个 输 信 来 说 ， 其 不 同 的 输出 并 不 一 定 
存在 。 第 二 ， 训 练 样本 中 可 能 没有 完整 重建 输入 -输出 映射 所 需 的 趾 够 信息 ， 因 而 惟一 性 淮 
则 可 能 不 满足 。 第 三 ， 规 实生 活 中 训练 数据 不 可 避免 出 现 只 声 以 及 不 精确 性 ， 增 加 了 输入 - 
i REA SE E.R, AWA A Bs ROP OR By, RE Re Bp ae 
人 人 x， 由 神经 网 络 所 产生 的 输出 结 采 可 能 起 出 值 域 急 的 范围 ， 换 各 话说 ， 连 续 性 准则 可 能 不 
满足 。 如 果 一 个 学 习 问 题 不 具有 连 组 性 ， 那 么 计算 所 得 的 输 人 -输出 映射 将 和 学 习 问 题 的 真 
HELKA. SRIF DUCA EH aA - 输出 映射 的 匈 验 信息 ， 敬 则 这 个 问题 是 不 可 克服 
BY. TEXT AE F, JSH Lanczos 关于 线性 微分 算 子 所 作 陈 述 是 恰当 的 :“ 信 息 的 缺 还 并 
不 能 其 任何 数学 技巧 来 弥补 。 
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我 们 将 在 下 一 节 讨 论 如 何 通 过 正则 北方 法 将 一 个 不 适 定 问题 转变 成 一 个 适 定 问题 *。 
5.5 正则 化 理论 


1963 年 Tikhonov 提出 了 一 种 新 的 方法 用 以 解决 不 适 定 问题 *， 该 方法 就 是 正则 化 方法 。 
在 曲面 重建 的 问题 廿 ， 正 则 化 的 基本 思想 就 是 通过 某 些 含有 解 的 先 验 知 识 的 非 负 的 辅助 泛 函 
来 使 解 稳定 。 先 验 知 识 的 一 般 形 式 涉及 假设 输入 - 输出 映射 男 数 ( 即 重建 问题 的 解 ) 是 光滑 
的 ， 意 味 着 相似 的 输 和 人 对 应 着 相似 的 输出 。 

进一步 ， 我 们 将 用 于 逼近 的 输入 - 输出 数据 ( 即 训练 样本 ) 集 合 描述 如 下 : 

输入 信号 :x © Be, i= 二 2 下 

期 望 响应 :gd © BL oi = 1,2,°,N 
TE Rk SAR ce a HEE. RIFE AS IR TIE EC ARE EA. H 
F(x) <eSIRUL PR, KEAT HERA, RETE A T AA p E E w M 
ALAS E., Tikhonov 的 正则 代理 论 包 含 两 项 

L 标准 误差 项 。 坊 项 用 各,( 下) 表示 ， 用 以 度量 对 于 训练 样本 51, 2, 2, N 的 期 望 
CHERAN d, ASE PRIMM y; ke aaa AMER A 


E (F) = DE -y = 5 L Dla - F(x;) (5.21) 


其 中 ， 我 们 引入 比例 因子 172 et rt 
2. 正则 化 项 。 第 2 项 用 旬 ( 下) 表示 ,依赖 于 通 近 晒 数 Fix) 的 "几何" 性质。 具体 定义 为 


6.(F) => DF ||? (5.22) 


其 中 ，D 是 线性 微分 算 子 。 关 于 解 { 即 输入 -输出 映射 F(x)) 的 形式 的 先 验 知识 就 包含 在 算 
TDP, AARTI 中 的 选取 与 所 解 的 问题 有 关 。 我 们 也 称 了 AREA T (stabilizer), H 
为 它 使 正则 化 问题 的 解 稳定 ， 使 解 光 请 从 而 满足 连续 性 的 要 求 。 但 是 ， 光 请 性 意 昧 着 连续 
性 ， 而 相反 未 必 为 真 。 

用 于 处 理 式 15.22) 所 描述 倩 况 的 解析 方法 是 建立 在 函数 空间 OEE SEA. Bes a 
指 的 是 郴 数 的 赋 范 空间 5 。 在 这 样 的 多 维 (严格 说 来 是 无 限 多 维 ) 空 间 中 ， 一 个 连续 函数 由 一 
个 回 量 来 表示 。 在 这 种 几何 图 像 意义 上 上 ， 我 们 就 可 以 在 线性 微分 算 子 和 矩阵 之 间 建 立 深刻 的 
联系 。 由 此 对 线性 系统 的 分 析 就 可 以 转变 为 对 线性 微分 方程 的 分 析 (Lanczos,1964 )。 

于 是 ， 式 (5.22) 中 的 符号 上 :| 表示 定义 在 DF(x}) 所 属 空 间 上 的 范 数 。 一 般 情 况 下 这 里 
所 使 用 的 妇 数 空间 指 的 是 包含 了 所 有 实 值 函数 f(x), xE RAY L, Si, Hb || f(x) ||’ Æ 
Lebesgue PJ HHJ REMAR f(x) 表 示 实 际 定 义 的 负责 产生 输入 -输出 数据 对 | (x, dN, 
的 物理 过 程 。 更 多 细节 参见 注释 , 

正则 化 理论 要 求 最 小 化 的 莉 为 


ECF) = €,(F) +28.(F) = > ld, - Fa) + aa | DF ||? (5.23) 
其 中 入 是 一 个 正 的 实数 ， nef iy Te my th aa EC FU Tikhonov 2, — 2% pe EBT BR BY CGE 


LERNE 4 AY ea Be 1A] ) BSE BAR, fE Tikhonov Z REC Fe] A ae RR tH E E HE 
题 的 解 ) 记 为 F iX) o 


(5,20) 
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在 某 种 意义 上 ， 我 们 可 以 将 正则 化 参数 入 视 为 一 个 指示 器 ， 用 来 指示 所 给 的 数据 集 作为 
HEHE F(x) 的 样本 的 充分 性 。 特 别 在 极限 情况 下 ， 当 % 一 0 时 ， 表 上 阴 该 问题 不 受 约束 ， 问 
题解 下 (x) 完全 决定 于 所 给 样本 。 另 一 方面 ， 当 **wm 时 ， 表 明 仅 由 算 子 D 所 定义 的 先 验 光 
滑 条 忻 就 足以 得 到 问题 的 解 F(x)， 这 也 是 所 给 样本 完全 不 可 信和 的 曙 一 种 说 法 。 在 实际 应 用 
P, EMESA O 取 值 在 上 述 两 个 极限 值 之 间 ， 和 使 得 样本 数据 和 先 验 信息 都 对 解 F x HET 
页 献 。 因 此 正则 化 项 多 .( 五) 表示 一 个 模型 复杂 性 - 您 暂 函 数 ， 其 对 最 终 解 的 影响 取决 于 正则 
化 参数 入 的 大 小 。 

另外 可 将 正则 化 看 作 提 供 第 2 起 讨论 的 偏 置 - 方差 困境 的 一 个 可 行 的 解 。 具 体 地 ， 在 正 
贴 化 参数 和 的 最 优选 择 的 证 计 中 通过 融合 恰当 的 先 验 知识 使 得 学 习 问 题 的 解 在 模型 仿 置 和 模 
型 方差 之 间 达 到 一 个 满意 的 平衡 。 


Tikhonov 32.24 AY} Fréchet 微分 


JEW 4 A EP NEF; 


Fit Tikhonov $ h@( F) deel 45 BRK F(x), SEP, Tikhonov 2 ew 
GCF) = (FF) + AB CF) 
义 ， 其 中 多 , (五 ) 是 标准 误差 项 ， 龟 .【 匹 ) 是 正则 从 项， 而 和 穴 是 正则 化 参数 。 


为 进行 最 小 化 代价 泛 函 名 ( 严 ) ， 我 们 首先 需要 求 轩 ( 严 ) 微 分 的 规则 。 我 们 可 以 用 Frechet 微 
分 来 处 理 这 件 事 。 在 初等 微 积 分 中 ， 曙 线 上 基点 的 切线 是 在 该 点 邻 域 上 的 曲线 的 最 佳 逼 
近 直 线 。 同 理 ， 一 个 泛 函 的 Fréchet 微分 可 以 解释 为 一 个 最 佳 局 部 线性 逼近 。 这 样 泛 函 包 
CF BY Fréchet 微分 可 正式 定 久 如 下 (Domy,1975; Debnath and Mikusifiski, 1990; de Figueiredo 
and Chen, 1993): 


d€(F,h) = ag CF + Bh)] (5,24) 


ERF h(x%) 是 一 个 固定 的 关于 向 量 x 的 函数 。 在 式 (5. oA) FE ny FASE AS AGP IE Tl], PRR F 
(x) iz PRS CPA AARRE R RENTAR ROH, AE 下} 的 Fréchet 微分 d 
CCF hE FOx)RAS, HARA 
dE(F,h) = dE (FR) +AdE (F,k)=0 (5.25) 
其 中 dE F, hA dE (F, RSPR AE, (FAIS, (FA Fréchet 微分 。 
计算 式 (5.21) 标 准 误 差 项 多 (F, AAS Fréchet aie 


d€,(F,4)= |£ ae. (Fea) = [4 Able - F(x,) - Bh(x,) P] 


~ Dd- F(x) = BhCx, AG) =- Sd, - F(x,)]a(x) 


(5.26) 
在 讨论 的 这 一 点 土 ， 我 们 发 现 引 入 Riesz 表示 定理 是 有 益 的 (Debnath and Mikusifski, 1990; 
Kirsch ,1996 }， 它 可 陈述 如 上 下， 


全 了 为 Hilbert 空间 ( 即 一 个 完备 的 内 积 空间 ”， 用 符号 名 表示 ) 上 玖 一 小 有 界线 性 冯 通 ， 
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存在 一 个 ho CH, ARINA RCH ARA 
f= CA, holy 
H. LAM = i ko Ilo BPH Hibet FMHHMSSOYRHS AME, 


1% FP HA APS C, amde H]_E A PS SRA ee), A, WE Riesz HEH, 
我 们 可 以 重 与 式 (5.26) 的 Fréchet 微分 dE LF, WTF: 


AELE, h) =- (h, Cd, ~ FS), (5.27) 
式 中 6. 表示 以 Xx, 为 中 心 的 x 的 Dirac delta 分 布 ， 即 
6, (x) = d(x ~ Xi) (5.28) 
下 面 计算 式 (5.22) 的 正则 化 项 雪 .【 下) 的 Fréchet 微分 。 用 上 面 同 样 的 方法 我 们 可 以 得 到 
d€(F,h) = AALEN -34 DIF + Bh ax) ， 


(5.29) 
= | DIF + BhDhdx; | = | DFDhdx = (Dh,DF)y 
AP C(DA, DF )y EAR DA(x) 和 DF(x) 的 内 积 ， 函 数 Dh(x) 和 DF(x) 分 别 代 表 了 微分 算 子 
DER A(x) Al F(x) ERE. 
Euler-Lagrange 方程 
ME- TRERBAER ST D, RINT he CHORES D, Et Bee 
Be AL te 4 A RS AY Ra u(x) 和 v(x} 有 
| _.u(x)Dv(x) da = | ,CODu(x) dx (5,30) 
FTL (5.30) 04 Green EFA; 它 为 通过 给 定 微 分 算 子 D KREE MBS D 提供 - -个 数学 
基础 。 将 卫 看 作 一 个 矩阵 ， 则 其 伴随 算 子 了 D 的 作用 类 似 于 一 个 转 置 矩 阵 的 作用 。 
比较 式 (5.,30) 的 左边 和 式 (5.29) 的 第 四 行 ， 我 们 可 作出 如 下 恒等式 : 
u(x) = DF(x),De(x} = Dh{x) 
根据 Green 恒等式 可 将 式 (5.29) 重 写 为 等 价 形式 


dB.(F,h) = Jon h(x)DDF(x) dx = (h,DDF) (5.31) 

KP DED 的 伴随 算 子 。 
将 式 (5.27) 和 (5.31) 代 入 极 值 条 件 (5.25) 中 ， 可 以 重新 得 到 Feche 微分 d ECF, ARNE: 
dECF,h) = (r, [DDF -Dd Pah) (5.32) 


因为 正则 化 参数 和 通常 取 开 区 间 (0, wm } 上 的 某 个 值 ， 所 以 当 且 仅 当 下 列 条 件 在 广义 函数 音义 
PEA, FAZE PRIA AR hix), Fréchet 微分 4 €(F ADA HE: 


= te 
DD F. aa 24 (4, 一 Fd, = Ü 
BV SOT He 
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DDF, (x) = + Dd - F(x) a(x - x,) (5.33) 


FU (5.33) Fe Tikhonov 72 AE( FAY Euler-Lagrange 4 #2; Tce MX Tikhonov 7 REFE P(x) db 
有 极 值 的 必要 条 件 {Debnath and Mikusifski, 1990 )， 


Green 函数 


FA (5.33) F275 BUT RA 下 的 偏 微分 方程 ， 该 方程 的 解 是 由 方程 右边 的 积分 变换 组 成 的 ， 

令 GX) 表示 同 量 x 和 的 一 个 汕 数 ， 两 个 向 量 的 地 位 相同 ， 但 它们 的 目的 木 辣 ， 向 
量 x 作 为 参数 ， 而 同 量 则 作为 自 变量 。 对 于 给 定 的 线性 微分 算 子 L, RTM RR C(x, 
EE 满足 如 下 条 件 ( Courant and Hilbert, 1970): 

LATE, Cx QE x MRR, FEE MRA, 

2. RETEA xih, CEET x WFR RER. FAKA HAEE LKE 


决定 。 
3. 将 G(x,5) 看 作 xx 的 销 数 ， 除 了 在 点 x=& 奇异 外 ， 它 满足 偏 微 分 方程 
LG(x,§) = 0 (5.34) 
LAN Rae G(x. EREE PRA FP) 
LG(x,&) = d(x - &) (5.35) 


FOR, a(x -6) 如 前 定义 是 位 于 点 x= € f Dirac delta IX, 

AE ESRB eee G(x,8) 叫 微微 分 算 子 工 的 Green PRA. Green MA St FLEE AS 9 
FAHR UT Pe AE OE 

信 p(X) 表示 一 个 关于 E R™ 的 连续 或 者 分 段 连续 的 函数 。 那 么 函数 


F(x) = | , C(x,E)p(E) dE (5.36) 


就 是 微分 方程 
LF(x) = (x) (5.37) 
的 解 ， 其 中 G(x,) 是 线性 微分 算 子 工 的 Green 函数 {Courant and Hilbert 1970 )。 
为 了 证 明 F(x) AGTE, 我们 将 微分 算 子 工作 用 于 式 {5.36) 的 两 端 ， 可 得 


LF(x) = L| Gx EJolE)d(E) = | „LE, EEE) dE (5.38) 


MARS LAE MARE, ETAT Cix OMMRRAYA x 的 函数 。 将 式 (5.35) 代 入 式 
(5.38)， 有 


LF(x) = | | a(x - pE 
最 后 ， 利 用 Dirac Delta 因数 的 筛选 性质 ， 可 得 
| lE)8(x - E)d(€) = olx) 
这 样 我 们 就 得 到 了 如 式 (5.37) 所 描述 的 LF(x) = p(x)。 
IE MUAY, fo) se HS) Fa 
回 到 当前 的 问题 ， 下 面 我 们 来 解 Euler Lagrange 微分 方程 ， 即 式 (5.33)}, 令 
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L = DD (5.39) 
ry 


和 和 pE) = + Dd - F) - x) (5.40) 
ABA ARPES 36), fT 
P= | GBs DIa - Plu) 108 - x) Fab 


= x Zl 一 F(x)]} 。 G(x, E)alé oe x, dé 


ERSAM FAR SR ARR. dela, FAA Dira Delta AA A EE I, RiT LS 
到 Euler-Lagrange 被 分 方程 (5. 33) BU AN P 


AG) = + Dl d, — F(x;) |G(x,x,) (5.41) 


式 15.411 倍 明正 则 化 问题 的 最 小 化 解 F, Oo N T Creen IKEA. x 代表 扩展 中 
D, RE d ~- FE 人 代表 展开 系数 。 换 句 话 说， 正则 化 问题 的 解 在 光滑 郴 数 的 空间 的 一 
个 NETZE., Ax, 24, 2, °°, N 为 中 心 的 一 组 Green PI G(x, x,) | ART RF 
空间 的 基 {Poggio and Girosi, 1990a }。 注 意 式 (5.41) 中 ， 展 开 系 数 具 有 如 下 性 质 ，(1) 与 系统 的 
估计 误差 (定义 为 应 有 输出 d, 和 相应 的 网 络 实 际 计 算 输 出 亚 (x) 之 差 ) 成 线性 关系 ; (2) 与 正 
则 化 参数 成 反比 。 


确定 展开 系数 
下 面 将 要 解决 的 问题 是 如 何 确 定式 (5.41) 中 的 展开 系数 。 令 
w; = 1d, - F(x, )} i = 1,200 (5.42) 
则 正则 化 问题 的 最 小 化 解 (5.4 由 可 以 写成 如 下 形式 : 
F(x) = S uc 人 x X;) (5.43) 
GE x, f=l, 2, --, N 上 计算 式 (5. 43) 的 值 可 得 
F (x) = Title 24 = 1,2,7, N (5.44) 
现在 我 们 引入 如 下 定义 : 
F, = FR, F), e Fay (5.45) 
= ld, ,ds dy" (5,46) 
和 Glix’) oc Gx, xy) 
iii hiii 人 one (5.47) 
G(Xy x G(Xy ,X} n G (Rw, Xy) 
Ww = [ 5 Wa ttt wy |? (5.48) 
然后 式 (5.,42) 和 (5,44) 可 分 别 写成 算 阵 形式 
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和 F, = Gw (5.50) 
BAS .49) 5.50) FÉS F, Eara 
(G + AL) w = d (5.51) 


其 中 工 是 一 个 Nx NETEJA EN, IE G BRN Green HEE, 
式 (5.39) 所 定义 的 线性 微分 算 子 工 是 自 伴 的 ， 它 的 伴随 算 子 等 于 它 自身 。 因 此 ， 与 其 相 
天 的 Green 图 数 G(x, x EIRA, EDEREK i，j AA 
G(x,,x,) = G(x,,x;) (5,52) 
ZA (5.52) 2259 Green 国 数 C(x MBP AEE xs 和 的 位 置 是 叮 以 互 换 的 而 不 影响 它 的 值 。 
等 价 地 ， 式 (5.47) 所 定义 的 Green Hike G EERE, R 
G’=G (5,53) 
PLE TRH eR FE, EE 5.3 PPA A @ 进行 描述 。 我们 首先 注意 到 
Green RE G 在 正则 化 理论 中 所 起 的 作 几 与 插值 矩阵 O 在 RBF 插值 理论 中 所 起 的 作用 相同。 
它们 部 是 N x N 阶 的 对 称 阵 。 因 此 ， 我 们 可 以 说 ， 对 于 某 类 Green 函数 ， 只 刻 所 提供 的 数据 
AX, Xs ts xy A PARA, W Green 年 阵 就 是 正定 的 。 满 足 Micchelli 定理 的 Green 图 
aN TG I Se — YR RBA Gauss PK, {Aa OMM, 实际 上 ， 我 们 总 是 将 入 选 得 足够 
K, 使 得 G+ 氏 是 正定 的 ， 从 而 是 可 道 的 。 这 样式 (5.51) 所 表示 的 线性 方程 组 就 具有 惟一 解 
(Poggio and Girosi, 1990a ): 
w= (G+ I) d (5.54) 
因此 ， 只 要 选 定 了 微分 算 子 D， 从 而 确定 了 相应 的 Creen BH E(x,.x,), i51, 2,0, N, 
我 们 就 可 以 通过 计算 式 (5.54) 得 到 与 某 一 特定 期 望 输出 向 量 a 以 及 合适 的 正则 化 参数 值 、 相 
对 应 的 权 值 向量 wa 
总 之 ， 我 们 可 以 说 正则 化 问题 的 解 可 以 由 展开 式 


F(x) = Dw Cx, x,) (5.55) 


给 出 ， 其 中 G(x,x,) 是 自 伴 微分 算 子 LL= DD 的 Green 函数 ，w 是 权 值 向 量 w 的 第 i 个 元 素 . 
这 了 两 个 量 分 别 由 式 (5.53) 利 式 (5.54) 定 义 。 由 式 (5.55) 可 知 (Poggio and Girosi, 1990a ): 
” 正则 化 方法 等 价 于 在 一 组 Green 销 数 的 基础 上 解 的 展开 ， CSO RHE Be a FR 
用 的 稳定 夫子 D 的 形式 和 相关 的 边界 条 件 。 
© 主 展 开 式 中 所 用 到 的 Green 函数 的 个 数 与 训练 过 程 中 所 用 的 样本 数据 点 的 个 数 相同 。 
但 是 应 该 注意 的 是 ， 式 (5.55) 所 给 出 的 正则 化 问题 的 解 是 不 完整 的 ， 因 为 它 代 表 一 个 对 
AFAT DD 的 零 空间 上 项 g{x) 的 解 的 模 (Poggio and Girosi, 1990a }。 我 们 这 么 说 是 因为 所 有 
位 于 DD 的 等 空间 上 的 清 数 对 于 式 (5.23) 的 目标 汉 函 名 ( 玉 ) 中 的 上 DF 上? 项 都 是 “不 可 见 ” 的 。 
我 们 所 说 D 的 零 空间 是 指 所 有 满足 Dg 等 于 零 的 函数 g(z) 的 集合。 附加 项 gfzx) 的 确切 形式 
是 依赖 问题 的 ， 也 就 是 它 取 决 于 问题 的 稳定 因 了 予 的 选取 以 及 边界 条 件 。 例 如 ， 当 稳定 因子 D 
大 应 于 一 个 钟 形 Green 函数 ， 如 Gauss 函数 或 者 道光 二 次 函数 ， 此 时 就 不 需要 g(x)}。 由 于 这 
TRA, 并 且 它 的 存在 并 不 会 对 最 后 主要 结果 产生 影响 ， 所 以 我 们 在 结果 中 忽略 这 个 问题 。 
对 于 某 一 特定 的 中 心 x, Green 晒 数 的 特性 只 到 决 于 所 选 的 稳定 因子 ， 即 只 取决 于 关于 
aA - 输出 映射 的 先 验 假设 。 如 果 所 选 的 稳定 因子 D 具有 平移 不 变性 ， 则 以 x 为 中 心 的 
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Green ÄI G(x, x JAK FAR xA x 222; Bf 
(XR) = Lee X) (5.56) 
如 有 果 稳 定 因子 D 是 平移 不 变 和 旋转 不 变 的 ， 则 Green K G(x, x, ARK el x - x, 的 
Euclid 范 数 ， 表 未 为 
Gx,x,) = Ct || x- x, ||) (5.57) 
在 这 些 条 件 下 ，Green PAR — ie ie I PSK, EHT, R555) AE A RT RA 
如 下 形式 (Poggio and Cirosi, 1990a) : 


F(x) = Dwell x- x | ) (5.58) 


式 (5.58) 所 描述 的 解构 造 一 一 个 依赖 于 已 知 数据 点 的 Euclid 距离 度量 的 线性 函数 空间 。 

了 式 45.58) 所 搞 述 的 解 叫 做 严格 插值 解 ， 因 为 所 有 六 个 已 知 训练 数 据点 都 被 用 于 生成 插 
什 商 数 F(x)。 但 是 ， 值 得 注意 的 是 式 {5$.58) 与 式 (5.,11) 所 表示 的 解 有 根本 不 同 :， 式 (5., 58) 
的 解 被 式 (5.54) 给 出 的 权重 向 量 w 的 定义 所 正则 化 。 只 有 当 我 们 将 正则 化 参数 设 为 零 时 ， 
这 两 个 解 才 是 一 样 的 。 


多 元 Gauss 函数 


Green PRAY G(x, x, ) 的 相应 的 线性 微分 算 子 卫 是 平移 不 变 和 旋转 不 变 的 并 且 它 满足 式 
(5.57) 的 条 件 ， 此 时 Green 图 数 具 有 重要 实际 意义 。 这 类 Green 酌 数 的 一 个 例子 是 多 元 Gauss 
Pax, ELN 


G(x,x,} = exp| 一 |x- x, | | (5.59) 


其 中 x, 表示 函数 的 中 心 ， 而 go, 则 表示 它 的 宽度 。 与 式 ($.59) 所 示 Green 图 数 相 对 应 的 自 伴 
ef L= DD FY FA H (Poggio and Girosi, 1990a) : 





L = >= 1}"a, V" (5.60) 
其 中 a, = aa (5.61) 
ni 2 
mV se mu 维 多 重 拉 普 拉 斯 算 子 
2 O Ëo’ 
a i ax? . a dan (3.62) 


因为 式 (5.60) 中 工 的 项 数 允 许 吧 无 穷 ， 所 以 从 标准 意义 上 说 L 虐 并 不 是 一 个 微分 算 子 。 因 此 ， 
我 们 将 式 (5.60) 中 的 工 称 为 坊 微 分 算 子 。 
由 于 定义 工 =DD， 由 式 (5. 的 ) 我 们 可 以 推导 出 算 子 D 和 DD 如 下 (参见 注释 [10]); 
Lf d KES 2 . Vo a" 
ale Du (a * tax,” " zy not EE 7 


— I 
a k 
TICE ACEA 


(5,64) 





ze d d 可 \" 
和 D= HEE DE Ez ro | =< 2. {elja 
Ft "ig 


agtde--+kon 


ww ai bbt.com TAAWAOAA 





, 276 


PR ARTA MT Ee TCE AAR EA, P ARRAS. 58 SLAY TE AF 


198 BI 





将 式 (5.59) 人 至 (5.61) 代 人 式 (5.35) 日 令 &E 汶 x ， 则 我 们 有 
3 er exp ~ 59 Il x - x |?) = o(x- x) (5.65) 


FILA (5.59) 72 SCA Green 图 数 的 特殊 形式 ， 我 们 就 可 以 将 式 155.55) 给 出 的 正则 化 解 写 成 多 元 
Gauss 图 数 的 线性 悚 加 形式 由 下 : 


WV | 
F(x) = Dwexp| -za lx- x l°) (5.66) 
i= ft z 


共 中 线性 权 值 w, EA (5.42)58 & - 

27h (5.66) F, BEAR FOX AS Gauss 项 的 方差 是 不 同 的 。 为 简化 起 见 ， 通 常 认 
为 在 F(X) 中 对 所 有 的 i 都 有 ac =o 。 尽 管 这 样 设计 的 RBF 阅 络 是 受到 一 定 限 制 的 一 种 ， 查 
其 仍 不 失 为 一 个 通用 带 近 器 (Park and Sandberg, 1991). 


5.6 正则 化 网 络 


去 (5.55) 给 出 的 正则 化 通 近 图 数 POE HD fe x, 的 Green 函数 G(x,X%,) 的 展开 预示 
看 图 5-4 所 示 网 络 结构 为 其 提供 一 个 实现 方法 。 基 于 明显 的 原因 ， 这 种 疝 络 结构 被 称 为 正则 
化 网 络 (Poggio and Girosi,1990a )。 如 5.1 市 所 述 的 阅 络 一 样 ， 该 网 络 包 括 二 层 。 第 一 层 是 由 
输入 节点 组 成 的 ， 输 入 节 点 数 日 等 于 输入 向 量 x 的 维 数 mo( 即 问题 的 独立 变量 数 )。 第 站 屋 
是 隐藏 屋 ， 人 是 由 直接 与 所 有 输入 节点 相连 的 非 线 性 单元 组 成 的 。 一 个 隐藏 单元 对 应 一 个 数 
WAX, i=1, 2, °°, N, HPN 表示 训练 样本 的 长 度 。 每 个 隐藏 单元 的 激活 晒 数 由 Green 
图 数 定 祥 。 由 此 第 守 个 隐藏 单元 的 输出 是 Clx,x )。 输 出 层 仅 包括 一 个 线性 单元 ， 它 与 所 有 
隐藏 单元 相连 。 这 里 所 谓 的 "线性 " 指 的 是 阅 络 的 输出 是 隐藏 单元 输出 的 线性 加 权 和 。 输 出 层 
的 权 值 就 是 未 知 的 展开 系数 ， 如 式 (5.54) 所 示 ， 它 是 由 Green 函数 C(x, x, ) 和 正则 化 参数 》 
决定 。 图 5-4 描绘 一 个 单 输出 的 正则 化 网 络 的 结 枸 图。 显然， 我 们 可 以 将 其 推广 为 包括 任意 
期 望 输出 数目 的 正则 化 阅 络 。 





Se A JE NS Green KADARE 输出 屋 
图 5-4 正则 化 网 络 


图 $-4 所 未 的 正则 化 网 络 候 说 Green 图 数 G(x, ) 对 所 有 的 1 都 是 正定 的 。 假 设 上 述 条 件 
Poe, WRN, Green cA ASR (5.59) AAS Gauss 形式 , Mai Paes A FS Bl) ARES ORE CP) BB 
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化 的 意 头 下 将 是 一 个 “最 佳 "的 内 搬 解 。 而 且 ， 由 侦 近 理论 的 观点 ， 止 则 化 网 络 其 有 如 下 三 个 期 
组 多 性质 (Pogpgio and Girosi, 1990a ): Pel 

1. FAHER ee a ES 
REA ER SA A, ET A 
任意 精度 道 近 定义 在 Re ARO 
Ea JCE RE 

2. 几 于 正则 化 理论 导出 的 逼近 格 
陈 的 未 知 系 煞 是 线性 的 ， 这 样 该 网 络 具 
有 最 佳 下 近 性 能 。 这 说 明 给 定 一 个 未 知 
的 非 线性 果 数 f， 总 可 选择 一 组 系数 使 得 
它 对 了 的 盟 近 优 于 所 有 其 他 可 能 选择 。 

3. 由 正则 化 网 络 求 得 的 解 是 最 佳 
到 。 这 里 的 最 佳 是 指正 则 化 阿 络 使 测 
PUN SRE AS Ze AES SA BK 图 5-5 2 [a aes RA 
Ze W972 eli 


5.7 J Mie oe oe 


Aa aa A fo) x, 与 Green 国 数 GCx,x,), i=l, 2, +, NZI :一 对 应 的 英 系 ， 有 
HRR N 太 大 了 ， 实 现 它 的 计算 量 将 大 得 惊人 。 特 别 是 在 计算 网 络 的 线性 权 值 ( 即 式 
(5.55) 中 的 展开 系数 ) 时 ， 要 求 计算 一 个 N x NN 阶 矩 阵 的 道 ， 其 计算 量 按 N 的 名 项 式 增长 
(大 约 为 NW)。 另 外 和 矩阵 越 大 ， 其 病态 的 可 能 性 越 识 ; 一 个 和 矩阵 的 条 件数 被 定义 为 该 矩阵 的 
最 大 特征 值 与 其 最 小 特征 值 的 比值 。 为 了 克服 这 些 计算 上 的 困难 ， 我 们 通常 要 降低 神经 网 络 
HARR., 这 要 求 一 个 正则 化 解 的 近 亿 。 

解决 办 法 是 在 一 个 较 低 维 数 的 空间 中 求 一 个 次 优 解 ， 以 此 来 通 近 式 (5.55) 所 给 出 的 正则 
化 解 。 POR) Wit AE ap ey PH BK Galerkin 方法 的 标准 技术 实现 。 根 据 这 个 技术 ， 近 似 解 
F 《将 在 一 个 有 限 基 上 进行 扩展 ， 表 示 为 (Poggio and Girosi, 1990a) 


F° (x) = Dj wp (X) (5.67) 
其 中 ip (x) 1i=1,2,…, m, 是 一 组 新 的 基 函 数 ， 不 失 一 般 性 我 们 假设 它们 线性 独立 。 典 型 
情况 下 这 组 新 的 基 函 数 的 个 数 小 于 输 和 人 数据 点 的 个 数 ( 即 mj < N, FFA w 组 成 一 组 新 的 权 


(HE. HTS eK, FTE 
px) = G(ilx—t, ||), i= 1,2,°',m, (5.68) 


其 中 中 心 集 it,1i=1,2,… ,mi | 待定 。 基 水 数 的 这 个 特定 选择 是 惟一 的 选择 ， 使 得 能 保证 当 
m=N, Ht,=x,, i=1, 2, ++, NET, 其 解 与 式 (5.58) 的 正确 解 一 致 。 因 此 将 式 (5.68}) 代 
人 式 (5.67) 中 ,我 们 可 以 重新 定义 Ow) 


F* (x) = >) w,6(x,t,) = >) mG ll x- t ||) (5.69) 


eA FE WUE PA F (x) 的 (5.69) 的 展开 形式 ， 我 们 将 要 解决 的 问题 是 确定 一 组 新 的 权 什 
lwa 1i=1,2,… ,mi |, PRATER ECF ) 最 小 化 ， 新 代价 沁 函 由 
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BP) = Da -Dwell -t |) +All DF? ||? (5.70) 
定义 。 式 (5.70) 右 边 第 一 项 可 以 写成 欧 几 里 德 范 数 平方 19d-Gw|*， 其 中 

d = [d,d sdy] (5.71) 

G(x, .& >} Ctx bt) ~ G(x, stn ) 

G(x, ,t) G(x, ,t,) eter G(x, ,ft。 ) 
G = | (Ser) 

G(x, .t,) G(xy.t) ae G(Xy st, ) 
Ww = LW, R, T Wm 外 (5,73) 


期 望 啊 应 向 量 d 与 前 面 一 样 是 N ER, BE, Green ESE G ARS w 的 维 数 却 
有 不 同 维 数 ; ERE G 现在 是 Nx m, 阶 的 ， 所 以 不 再 是 对 称 的 ， 而 向 量 Ww 是 m x 1 的。 由 式 
(5.69) 我 们 注意 到 ， 近 似 函 数 严 " 是 由 稳定 因子 DREN Green 函数 的 线性 组 合 。 因 此 ， 我 
和 们 可 以 将 式 (5.70) 右 边 第 二 项 写成 


|DF* [= (DF DF Ye = [BD ucts,t) DD D uO), 
(5.74) 
- [D uca), Swat], =) Demett,.t) = we 
RERAMA “PaaS 等 项 分 别 利用 伴随 算 子 的 定义 和 式 (5. 35). FAG, 是 一 个 m x m 
BAUR ERE, EMON 


Ghb) Cib) -- Gst, ) 
G{t.t) Glh,t) e G(&,t, ) 
G = | | Bi (5.75) 
G(t, b) Gt, sh) e E(t, ty) 
LARS (Et ln] w AOR (5.70) MA. BSI FAR GRYM 5,5): 
(G'G +G). = G'd (5.76) 


当 正则 化 参数 UAT, A w 趋 于 一 个 超 定 的 最 小 平方 数据 - 拟 合 问题 (因为 m <N) 
的 伪 亨 (最 小 范 数 ) 解 ， 表 示 为 (Broomhead and Lowe, 1988 ) 

w= G' d,a = 0 {5.77} 
其 中 G* EE GÉ tX, BD 

G = (G'G) IG" (5,78) 


加 权 范 数 


式 {5.69) 中 的 范 数 通常 指 的 是 欧 几 扎 德 范 数 。 然 而 ， 当 输入 向 量 x 的 分 量 属于 不 同 的 类 

时 ， 将 其 视 为 一 般 的 加 权 范 数 会 更 合理 ,加权 范 数 的 平方 形式 由 
lxii = (Cx) (Cx) = x CCX (5.79) 
IEN. (Poggio and Girosi, 1990a )， 其 中 CC 是 一 个 mo x mo MIRER, m 是 输 人 向 量 x 的 维 数 。 
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A FAA FES ES, FRAT AY ARES (5.69) H TES Ee aa ae (ES a PB A 
Ti (Lowe, 1989; Poggio and Girosi, 1990a) : 


F(x) = Dwele t l ) (5,80) 


e O E 我 们 可 以 简单 将 其 视 为 对 原始 输入 空间 做 一 个 份 身 
换 。 上 电 则 上 这 种 变 搞 并 不 会 降低 原来 不 如 权 的 结果 ， 困 为 原来 不 加 权 的 范 数 实际 上 对 应 于 
一 个 单位 定 阵 的 可 权 范 数 。 另 一 方面 ， 加 权 范 数 可 以 看 作 直 接 从 式 (5. 瓜 ) 定 义 的 ms 维 
Laplace Primate Sf D PLES; 参见 习题 .6。 使 用 加 权 邦 数 的 合理 性 在 Gauss 42 [P] Æ PR 
数 痛 景 下 可 以 解释 如 下 。 一 个 以 t 为 中 心 和 具有 范 数 加 权 和 矩阵 C 的 Gauss % (iq eH 
G(x-t |) 可 写成 
CC x-t i e)= expl- <x- t) "CClx— €,)] 


= apl- Ha -Ea 4)] (5-81) 


其 中 着 矩阵 E EXA JE -Ce (5.82) 


式 (5.81) 表 示 一 个 具有 均值 向 量 t AU EE EEI Gauss 分 布 。 基 于 此 ， 它 是 式 
(5.59) 描 述 分 布 的 推广 。 

式 (5.70) 中 逼近 问题 的 解 为 具有 如 图 5-5 结构 的 广义 径 向 基 喇 数 网 络 提 供 了 一 个 框架 。 
在 这 种 网 络 中 ， 输 出 单元 上 有 一 个 偏 置 ( 即 独立 于 数据 的 变量 )。 要 做 到 这 一 点 可 以 简单 将 输 
出 技 的 一 个 线性 权 值 置 为 偏 置 值 ， 同 时 将 与 该 权 值 相对 应 的 径 向 基 晴 数 视 为 一 个 等 于 +1 的 
Be. 

从 结构 上 看 ， 图 5-5 所 示 的 广义 RBF 网 络 与 图 5-4 所 示 的 正则 化 RBF 网 络 相 似 。 但 它 
们 在 以 下 两 个 重要 的 方面 不 同 ; 

1. 图 5-5 ARAJ X RBF 网 络 隐 藏 层 的 节点 数 为 m, AH m 总 是 小 于 用 于 训练 的 样 
ARN, AA, Æ 5-4 所 示 的 正则 化 RBF 网 络 的 隐藏 单元 数 恰 为 Na 

2. 在 图 5-5 A RB 网 络 中 ， 与 输出 层 相连 的 线性 权 值 向 量 ， 以 及 与 隐藏 层 相连 的 
径 阿 基 函 数 的 中 心 和 范 数 加 权 惩 阵 ， 均 为 待 学 习 的 未 知 参 数 。 而 图 5-4 的 正则 化 RBF 网 络 
隐藏 层 的 激活 函 数 是 已 知 的 ， 它 定义 为 一 组 以 训练 样本 点 为 中 心 的 Green 函数 ; 输出 层 的 权 
值 回 量 是 网 络 的 惟一 的 未 知 参 数 。 


接受 域 


HTAR 互 决定 式 (5.81) 给 出 的 Caus AAAA CC il xt, | 的 接受 域 。 给 定 一 
THO t, CC ll x—t, || Ne eae YAR 
W(x) = GC\lx-t, || - (5.83) 
的 文集 ， 其 中 a 是 一 个 正常 数 (Ca et al. 1994), MBH, CC ll x—t, || BORER BRA 
问 量 的 定义 域 的 一 个 特殊 子 集 ， 这 个 子 集 中 的 所 有 x MBSE GC ll x-t, | DR AFHRE 
水 平 as 
RIMES CC 的 不 同 定义 方式 ,我们 可 以 分 三 种 情况 讨论 协 方差 矩阵 对 及 其 对 
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ERR., KAA A e RRN 

L.2=o1, Hp TERTE, d BARAE. Way, CCl x-i | O KERRE t, 
HAGAE h s PRE ARR 

2.E = diagtal hs an), Ho PRANE x HRJ Pa ze, j=l, 2,0, 
myo 在 这 种 情形 ，G( xt, | HERRE SERA, 它 的 轴 与 输入 空间 的 轴 一 致 ， 
fae J RRR H o, PRE 

3. E EARTE, WEE, DEES. ARTIE L HAERERE OF H 
相似 变 接 来 分 解 五 如 下 : 
' 282| E =- QAQ (5.84) 

AL A de —-P OTA FE, m Q EAEE E. ER ARERR SRR A), 
IAEE: QO HUER S Se I] 


5.8 XOR HÆ (ĦEitit) 


ARR 4 APRH RAAS RA RRI XOR( 异 或 ) 问 题 ， 这 里 我 们 
将 给 出 用 RBF 网 络 求解 这 个 问题 的 解 。 

被 研究 的 RBF 网 络 由 一 对 Gauss ARR. EE Sa: 

Gillx-t f) = expt— | 一 二 7 = 1,2 (5.85) 
其 中 中 心 t GA 
t = [1,1]", = [0,0]" 

对 输出 单元 的 特性 ， 我 们 作 如 下 假设 : 

I. 由 于 问题 是 对 称 的 ， 输 出 单元 使 用 权 值 共享， 这 是 和 完 验 知识 散人 网 络 设 计 的 一 神 形 
式 。 因 此 ,虽然 有 两 个 隐藏 单元 ， 我 们 具有 一 个 权 值 w 有 待 确定 。 

2. 输出 单元 包括 一 个 偏 置 5( 邑 独立 于 数据 的 变量 )。 此 偏 置 的 作用 是 保证 XOR 函数 具 
有 非 零 均值 的 输出 值 。 

用 于 解决 XOR 问题 的 REF 网 络 结构 如 图 5-6 所 示 ， 该 网 络 的 输入 输出 关系 可 定 儿 为 


9 HEA =l 
b EF} 






HATA Gauss H HEER HR 
图 5-6 求解 XOR 问题 的 RBF 网 络 


y(x) = Dd, we |x —t, || ) + 6 (5.86) 


为 了 拟 合 表 5-2 所 示 的 训练 数据 ， 我 们 要 求 
¥(Xx;,) = di, j = 1,2,3,4 (5.87) 
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Hop x, JRA EL, d, 是 与 其 相应 的 期 望 输出 值 。 令 





ge = CCllx,-t H), 7 = 1,2.3,4;i = 1,2 (5.88) 
利用 表 5-2 PARA Z(S.88), FETA LAE San FAE eee ct ea RE 
表 5-2 XOR 问题 的 输入 - 输出 变换 计算 

数据 点 j 输入 模式 x, MRIH d 

(1,2) 0 
2 (0,1) l 
3 (0,0) 0 
4 (1,0) l 





] 0.1353 1 
0.3675 0.3678 ] 
其 中 G = 
0. [353 I Í PA 
0.3678 0.3678 1 
d=[0 1 0 1)’ (5.91) 
WwW = |w i bl” (5.92) 


这 里 摘 述 的 问题 芷 超 定 的 ， 这 是 就 数据 点 的 个 数 比 自由 参数 数 口 密 的 意 广 而 言 的 ， 这 就 解释 
EE 为 什么 不 是 方 阵 的 原因 ,，、 因此， EE G 不 存在 惟一 的 道 。 为 了 克服 这 个 国难， 我 们 
用 式 (5. 双 ) 的 最 小 范 数 解 来 解 次 这 个 问题 ， 由 此 可 得 

w= G d= (G’G)'G'd (5.93) 
注意 G'G 是 一 个 方 阵 ， 其 道 存 在 。 将 式 (5.90) 代 入 式 (5.93}， 我 们 有 


1.8292 - 1.2509 0.6727 - 1.2509 
他 + = | 0.6727 — 1.2509 1,8292 — 23 (5,94) 
~ 0.9202 1.4202 - 0.9202 1.4202 
tele, -RESR(S.91) FRG O44 AEA 5.93), O78 
- 2.5018 
Ww = À 2018 
+ 2.8404 
这 样 ， 我 们 就 用 RBF 网 络 完整 解决 了 XOR EHA. 
5.9 正则 化 参数 估计 


正则 化 参数 在 5.5 节 至 5.7 节 提 布 的 径 向 基 范 数 网 络 正则 化 理论 中 起 着 中 心 的 作用 。 
为 了 更 好 的 利用 这 个 星 沦 ， 我 们 兰 要 一 个 估计 闪 的 相当 于 原理 性 的 方法 。 
为 了 形成 我 们 的 思想 ， 上 先 考 虑 一 个 非 线 性 回归 问题 ， 它 出 一 个 模型 措 述 ， 其 中 与 第 ;时 
同步 的 输入 问 量 x, 相对 应 的 可 观测 输出 7 定义 为 
y, = FEX) + Ei i= 1,2,°°,N (5.95) 
此 处 f(x, ER ER, e 是 一 个 均值 为 零 和 方差 为 AGREGARE. RE 
Ele|] = 0 对 所 有 i (5.96) 
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和 ele) = (e a 

DEERE IRRE, n RR, RR TE AR f(x, } 
& {XX} 为 f(x) 相对 于 某 个 正则 化 参数 EMA. BY F a) A i ea TEER E pG 

回 题 的 Tikhonov 77 的 


ECF) = 7 Diy FGF + 5 DFO I? (5.98) 
达到 最 小 的 最 小 化 函数 。 选 择 -~- 个 合适 的 ~ 值 并 不 是 一 个 简单 事 , 它 需要 在 下 向 两 种 矛盾 的 
Ta OL IA AN ELA SS : 
© 由 外 DF(x) |? 项 来 度量 解 的 粗糙 度 
”由 Diy - F(x.) 项 来 度量 数据 的 失真 度 
这 一 节 的 主题 是 讨论 如 何 选择 好 的 正则 化 参数 )。 
均 方 误 关 
S R(X) 表示 模型 的 回归 函数 六 xz) 和 表示 在 正则 化 参数 某 一 值 下 的 解 的 逼近 函数 F, 
(x) 之 间 在 整个 给 定 集合 上 的 均 方 谋 差 。 即 
RQ) = 二 > Lex) - Fy(x,) J’ (5.99) 


BTV BE a ENEE ROBE) A E. 
E FU) 表示 为 给 定 的 一 组 可 观察 值 的 线性 组 合 ， 


N 
F (Xa) = SF ay CA) y; (5.100) 
用 等 价 的 矩阵 形式 写成 
其 中 F =| F(x), FR Og), e, E Oxy)? 
y= [yyy] 

tia duo ~" Giy 
H r h (5.102) 

Gy Gap 7" ONN 


其 中 N x NIER A (AERA Re EE, 
ALES, RNR W AA 


l 


= lf- Rİ? = Hf AQ)y|: (5,103) 


ROA) 
其 中 x1 的 向 量 f 为 


I 
N 
f= (fle FOG). fla)" 


我 们 可 以 进一步 将 式 15.95) 也 写成 矩阵 形式 
y=frie (5.104) 
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其 中 = a 
AE, BEES. WOAH EASKOS. 103) PSE RF, nyA 
RCA} = + | (EF - AQE- Ae |? 
| (5.105) 
=a il Agel? - qe ACA) — AQA)) f+ aq | AQUe I? 


其 中 I 是 一 个 Nx 的 单位 年 阵 .， 为 求 ROWER, FETELE.: 

© 陈 全 .4105) 的 右边 第 一 项 是 一 个 常数 ， 央 此 它 不 受 期 望 算 子 的 影响 。 

” 由 式 15.9%) 可 知 ， 第 项 的 期 望 为 零 。 

。 46 || AQQes 的 期 望 为 

EL} AQQel] “j= Ele ATOAAQ) &} 
= iri Ele A CMA)eI! = Elts AT IQA E)} 

FAIR ATE SCHL SI TARRE EP eS UE, SR ERR TS SP ie A 
RF 

i FORSTER PR PA: BERT AAO BAC, BC 的 
SF CBRE, $ Bae’, C=A (ADAM, WRG. OTRAS RASHES 


(5.106) 


E AQOE| PJ] = ElulA’Q)AQ ee]! = otr ATOOAQ)] (5.107) 
LAPAR E ITRE (5.97) 8. BIT RS A OAOE F A OORE., 
EL AQI] = otf A Oo] (5.108) 
将 这 三 项 结果 结合 起 来 ，R(%) 期 望 值 可 表示 为 
E[ REAY] = II- ACE? + Sula?) (5, 109) 


HE, — “aE RUG RE RODE HARE, WAE. 109) FE IY 
RR (OO HALA, EA Te eR. 我 们 引 人 如 下 定 广 作为 ROOKE it (Craven and 
Wahba, 1979} - 


RQ) = + ; E- Ata) dy || ° + Tai A OO] 一 T(t = AQ) (5.110) 
开 是 无 篇 全 计 ， 因 此 {按照 导出 式 (5.109) 所 述 的 相位 过 程 ) 我 们 可 证 明 
E| RO] = ELROD] (5.111) 
所 以 ， 使 竺 计 R(3) 最 小 的 入 值 可 以 作为 正则 化 参数 的 一 个 好 的 选择 ， 
POM IA 


使 用 估计 ROU — TRALEE RARE oo TE, o 通常 是 未 知 
BY. A T ah Pek AP Ra, Pa ae HS SP A Se RA, E SLE TH Craven and Wahba 
(1979) 提 出 的 。 

我 们 从 修改 通常 的 交叉 确认 的 留 一 形式 (在 第 4 章 描 述 ) 开 始 米 处 理 这 个 问题 。 具 体 地 ， 
> FY Ox) ATES K 


， 
er) => Dy - Fx) P+ $l DFG) | (5.112) 
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FA FF“ i Ya ai E AI SE p: cae ee 因此 我 们 可 以 引入 性 能 度量 
VQ) = ~ Ty, -FH (x,)T (5,113) 


Vi CAR BF AS. ORE A EE a AA A OV, CD Be MC R% Wahba, 
1990 ) 。 

Fi Ox.) AA RAE PL x, ) 来 代替 数据 点 oy, 的 值 ， 使 用 数据 点 y , 
Frs a Yk-1s Fko Yala O> FYN WEES 98 PEY Tikhonov 7 REl 下 ) 最 小 ， 则 Fe" (x, ) 就 是 
所 求 的 解 ， 这 个 性 质 以 及 对 于 每 一 个 输入 同 量 x， 叶 ( 的 的 最 小 化 函数 F (x) 线性 依赖 于 y, 
这 使 我 们 有 


2 


aar Fixo + CFM" (x,) — y) — (5,414) 


由 式 (5.100) 所 定 关 的 影响 矩阵 ACOA 4H, FETMBAR Bmw 
IF (xX) 
a {a} (5.115) 


dy, 
其 中 et 是 影响 年 阵 和 (对 角 线 上 的 第 天 个 元 素 ， 将 式 15.115)7 代 人 人 式 (5,.1147 中 并 解 
FIE (x 的 方程 ， 可 得 
P(x) 一 ay CA) x: Fx, } 一 Y; 


IE A = ~ e = “Li a + Fy (5.116) 
HANS. 16A (5.113) 2, RA TE MM NAA 
Ye ~ F, {Ky ) 

VOA) =- opaa Tea] | (5.117) 


HE, SIAR A, aa OMAE, COORD PEATE 
FA. CAD SR eS TABI FE, Craven and Wahba( 1979H ty E fp eae BAT 
TX SARA ( generalized cross-validation, GEV ) #FRHE, AS. 117) RRI V 4s CA) PARA 


Va) = a i Dal a = 和 | (5.118) 
其 中 ， 权 系数 w 出 
l- anA T 
u = Ta. aa (5.119) 


EKo AEE MIEI HATA ES —— 


N D Yre 一 Fix 
V) = Stoo (5.120) 
[ert - AG) J] 


最 后 ， 将 式 {5.,100) 代 入 式 (5.120)， 可 得 


L Iq- AQ) II? 
KC A} = 一 一 一 一 一 一 一 一 (5.121) 
Ler- ao] 
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ERER BL BOR FT ABE BA AE 
MSM MBIAGR VIA 的 最 优 性 


Sh PeANT AE SOLA PRY YN 期 望 值 的 最 小 化 丽 数 。 广 六 交叉 确认 的 期 望 无 效 度 可 定 尽 为 
天 | ROO] 





= ink ROJ] (5.122) 
其 中 RQ) 5h (5.99) 76 KAERA ATE, ASR, T 的 渐进 值 满 足 条 和 件 
lim $ ` = l (5,123) 


H, MF—-MRAR N, fe VORDAI A, [elit ROR bAT BBA, de 
得 也 和 成 为 一 个 很 好 的 估计 和 的 上 具 。 


评论 小 结 


一 般 的 想法 是 选择 一 个 使 在 整个 数据 集 上 的 均 方 共 ROO BME AE (HB 
人 不 能 直接 实现， 因为 RM) 中 包含 有 未 知 的 回归 函数 六 xz)。 因 此 ， 在 实际 中 我 们 就 要 分 两 种 
可 能 性 来 处 理 ， 
© 如 果品 声 方差 于 已 知 ， 我 们 就 选择 使 式 (5.110) 的 估计 让 (%) 最 小 化 的 作为 最 佳 值 ， 
这 里 所 谓 的 最 佳 是 指 它 也 使 RGM) 最 小 化 。 
© RR gf 未知， 我 们 可 以 选择 使 得 式 {5,121) 的 广义 交 及 确认 函数 V(X) 最 小 化 的 \ 作 
为 好 的 选择 ， 当 一 关 时 ， 这 个 太 可 以 使 期 望 均 方 误差 逼近 其 最 小 可 能 值 。 
值得 注意 的 是 ， 使 用 广义 交叉 确认 方法 估计 入 所 依赖 的 理论 是 渐 近 的 。 只 有 当 所 得 的 数据 集 
大 到 能 使 信 导 和 品 声 相 分 离 的 程度 ,这 种 方法 才能 希望 得 到 邻 人 满意 的 结果 。 
在 实际 使 用 中 ， 广 义 交 叉 确 认 方 法 对 于 非 齐 次 方差 和 非 Gauss 噪声 情况 ， 表 现 出 很 强 的 
鲁 棱 性 (Wahba,1990 )。 但 是 如 果品 声 过 程 是 高 度 相 关 的 ， 这 种 方法 往往 得 不 到 满意 的 正则 
化 参数 的 估计 。 
最 语 需 要 说 明 的 是 广 尺 交 丸 确认 函数 的 计算 问题 。 对 于 一 个 给 定 的 正则 化 参数 的 试验 值 
A， 求 式 (5.121) 中 分 母 [tr[I- At}]ANJ] 将 是 计算 V(X) 中 计算 量 最 大 的 部 分 。 在 Wahba et al, 
(1995) 中 描述 的 “随机 化 迹 方 法 "可 以 用 于 计算 of ACAD]; 这 种 方法 可 用 于 超大 规模 的 系统 。 


5.10 RBF 网 络 的 通 近 性 质 


溃 4 重 讨论 了 多 层 感 知 髓 的 通 近 性 质 。 与 多 层 感 知 器 类 似 ， 径 向 基 冰 数 也 具有 优良 的 逼 
近 特 性 。RBF 了 网 络 族 足够 大 ， 它 可 以 在 一 个 紧 集 上 一 致 逼近 任何 连续 函数 。 


通用 还 近 定 理 
T GE: RR TH AYA ARERR, HRE 
|. EOD ax x 0 
SS, 表示 一 个 RBF PRE, Eee FP: BR AR, Hep 


F(x) = 5 wc] 2 P 2) 


t=] 
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Á A C 


ERF s20, HEK] i=j, 2, 一， m Aw CRALE RB. RH, RITT o AGR 


Pe) 23 AA HHB ice FF (Park and Sanuberg , 1991) : 
对 性 何 输入 -输出 映射 函数 f(x)， 存 在 一 个 RRF AS, RP CES He, 公共 宽度 为 
0>0, 使 得 由 该 RBF 28 Bhs Oar ch eFC) EL Cpl, eR FRET Cx). 


LEME, HERK C: Rm 一 民 具 有 径 向 对 称 性 ， 因 此 该 定 埋 强 于 
RBF 网 络 的 必要 性 。 最 重要 的 是 该 定理 在 实际 应 用 中 为 使 用 径 向 革 函 数 设计 神经 网 络 提供 了 
理论 基础 。 


维 数 灾 { 再 讨论 ) 


除了 RBF 网 络 的 通用 这 近 性 质 外 ， 我 们 还 必须 考虑 这 种 神经 网 络 所 能 达到 的 逼近 过 。 

正 第 4 章 的 讨论 中 ， 我 们 知道 一 类 通 近 画 数 的 加 有 复杂 度 与 比率 m/s REMEKE, E 
中 mo 是 输 人 维 数 ( 即 输 入 空间 的 维 数 )，* 是 光 湛 度 指 数 (度量 如 在 特定 和 逼近 函数 类 中 的 盟 近 
负数 上 的 约束 数目 )。Rellman 的 维 数 灾 理 论 告 诉 我 们 ， 不 管 你 采用 什么 样 的 逼近 技术 ， 如 果 
光滑 度 指数 s 维持 常数 ， 则 达到 具有 某 一 规定 的 精确 度 的 通 近 虞 数 所 需 的 参数 数 与 输入 维 数 
ma 成 指数 增长 关系 。 要 想 达 到 :其 一 与 输入 维 数 mm 无 关 收 合 率 ， 认 而 避免 维 数 灾 ， 惟 一 的 
办 法 就 是 使 光滑 度 指数 ; 与 通 近 画 数 的 参数 数目 一 起 增长 使 其 弥补 复杂 度 的 增加 。 这 一 点 在 
表 5-3 ARA, H H Girosi and Anzellotti( 1992). te 5-3 忆 续 想 起 要 竺 到 独 VT He A FER Phy, 的 收 
DB, AS RAAT AAR RBF 网 络 甬 近 技 术 时 ， 其 尔 数 空间 所 应 满足 的 约束 。 当 然 ， 
加 于 这 两 种 通 近 技术 的 约 东 各 不 相同 ， 这 反 且 它们 所 遵循 的 实现 公式 的 不 局。 在 RBF 网 络 
情形 ， 结 果 在 Sobolev 函数 空间 ` 引 成 立 ， 其 中 的 函数 直到 2m > m 阶 的 导数 是 可 积 的 。 搞 名 
厦 说 ， 要 求 择 近 明 数 导数 可 积 的 阶 数 随 着 输入 维 数 mo 的 增加 而 增加 ， 以 使 收 人 敏 沼 与 mo 无 
Ro WMS 4 章 中 的 解释 ， 多 层 感 知 器 模型 有 相似 的 约 率 ， 但 以 相当 隐 临 的 方式 。 从 表 5-3 得 
到 的 绪论 可 陈述 如 下 ， 


在 多 层 感 知 器 和 RBF 网 络 中 可 实现 的 逼近 函数 空间 中 ， 随 闭 和 输入 维 数 mn, 的 增加 ， 空 间 
的 约束 也 将 增加 。 
最 后 的 结果 是 无 论 使 用 多 层 感知 器 或 RBF 网 络 的 神经 网 络 技术 还 是 使 用 其 他 具有 类 位 特性 
的 非 线 性 技术 都 不 可 能 打破 维 数 灾 。 
25-3 具有 相同 欧 收 伍 率 ON ym ) 的 两 个 逼近 技术 和 它们 相 放 的 函数 空间 ， 其 中 m, 为 隐藏 空间 的 大 小 
BA RAZ i 6 av UTA 


Ct 


(a) 2 RRA ai 
E ~ 其 中 [ 近 PA 
Jen, isl Fis)ds < = Hed Pls) MBM F(x) 的 i E J?a pe ae 
Fourier Æ P 
其 中 pi 为 sigmoid PATH PH RT . 
(b} RBF 网 络 : 


HA AE 2m > ing Bro FR TEN Agi AH Sbalev 空 Z a, 

- is) i ix—t, ll ? 

le Mix} = > aep a ] 
:=| 
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样本 复杂 性 、 计 算 复 杂 性 及 泛 性 能力 的 关系 


实际 上 我 们 所 拥有 的 数据 量 是 有 限 的 而 不足 无 限 的 ; 在 讨论 中 如 果 不 考 碟 到 这 .… 点 ， 那 
么 关于 有 逼近 问题 的 过 论 是 不 完全 的 。 同 样 地 ， 我 们 所 建立 的 神经 网 络 其 计算 复杂 性 也 是 有 了 限 
的 ， 而 不 是 无 限 的 。 所 以 ， 如 第 2 章 所 讨论 的 ， 对 于 在 一 个 有 限 的 已 知 样本 数据 上 训练 和 在 
以 前 未 遇 到 的 数据 上 测试 的 神经 网 络 ， 其 谤 化 识 差 包括 两 部 分 。 一 部 分 称 为 逼近 误差 ， 来 源 
于 神经 网 络 表 示 一 个 目标 函数 的 能 力 是 有 限 的 。 另 一 部 分 我 们 称 之 为 悟 计 误 善 ， 它 来 源 丁 训 
练 样本 中 所 包含 的 旭 标 苑 数 的 信息 是 有 限 的 。 使 用 这 样 的 分 解 ，Niyogi and Cirosif 1996 ) 推导 
出 用 隐藏 层 太 小 太 训 练 样本 大 小 表示 的 Gauss 型 RBF 网 络 的 汉化 误差 的 界 。 他 们 推导 的 结果 
是 针对 用 起 145.95) 所 搞 述 的 一 种 模型 学 习 一 个 属于 某 个 Sobolev 空间 的 回归 淆 数 的 情况 。 

这 个 办 使 用 第 2 曹 描述 的 PAC 学 习 的 术语 可 和 叙述 如 下 (Niyogi and Girosi, 1996) ; 

D G RRRA mo PA CHE) PAA m, TEMATA A Causs 型 RBF 网 络 . 令 f(x) 
表示 属于 其 个 Sobolev 空间 的 回归 沿 数 。 假 设 训 练 样本 了 = | (x,, dé 12, BEF (Oo) A 
型 向 随机 抽取 得 到 的 。 那么 ， 对 于 任 一 置 佑 参数 5E€ (0.1]， 由 网 络 产 千 的 这 化 误差 的 上 鼻 
为 


ttt 





o( 元] + ol log’ m,N) + Lioft) ) (5,124) 
的 概率 大 于 1 -6。 
由 式 (5.124) 可 得 以 下 推论 ; 
© 只 有 当 隐 茂 单 元 的 个 数 m 增长 的 速度 证 比 训练 样本 的 大 小 N 的 增长 速度 慢 时 ， 泛 
化 误差 才能 趋向 于 堆 。 
。 对 于 给 定 的 训练 样本 数 N， 隐 藏 单元 的 最 佳 数 日 m 具有 如 下 性 质 { 参 见习 题 5.11) 
m g N” (5.125) 
© RBF ASF PA oe O(/m ) 与 Barron(1993) 导 出 的 以 sigmoid RA UE ABO A 
数 的 多 层 感 向 器 的 收敛 率 是 类 位 的 ; 参看 4.12 节 的 讨论 . 


5.11 RBF 网 络 与 多 层 感 知 器 的 比较 


径 向 基 汪 数 (RRF) 网 络 与 多 层 感知 器 {MLP) 都 是 非 和 线性 的 层 状 前 馈 网 络 的 例子 。 和 它们 部 
是 通用 通 近 器 。 所 以 ， 训 不 奇怪 对 于 一 个 特定 的 MLP 总 存在 一 个 RBF 网 络 能 够 精确 的 模仿 
它 ， 反 之 亦 然 。 然 而 ， 这 两 种 了 网络 在 几 个 重要 方面 有 存在 着 不 同 之 处 。 

1. 一 个 RBF 网 络 ( 在 其 最 基本 的 形式 中 ) 内 县 有 一 个 隐藏 层 ， 而 一 个 MLP 却 可 以 有 一 个 
EN Et Be Ba RIZE o 

2. 典型 地 ， 一 个 MLP TR AIR aa, AMOR ae AY. 
RBF RU 24 het ee PT A Pl E P a ee SA ERA FF 

3, RBF 网 络 的 隐藏 层 是 非 线性 的 ， 而 输出 层 是 线性 的 。 但 是 MLP 作为 模式 分 类 器 ， 其 
障 屋 和 输出 层 都 是 非 线 性 的 。 当 MLP 用 于 解决 非 线性 回归 问题 时 ， 线 性 输出 层 通 冰 是 好 的 
选择 。 

4.RBF 网 络 每 一 隐藏 尘 元 的 激活 孙 数 的 目 变 量 部 轨 计 算 箱 入 同 量 和 该 单元 的 中 心 之 回 的 
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Fuclid 范 数 (距离 )。 TRIAL, MLP RARA h ese an ep a A H E A “Se RTH 


SE AAA E A PA 

5.MLP 建立 - :个 输入 - RAMS Be. BA, RBF RAA RR ee eB A 
部 非 线性 { 如 Gauss AAO ee AB TP AEZR Ea A — RA = 
ZR Be Si — PARR PER BA - 输出 映射 时 ， 在 相同 的 精度 要 求 下 ，MLP 需要 的 参 
数 数 比 RBF 网 络 所 需要 的 参数 数 少 。 

RBF 网 络 输出 单元 的 线性 特性 说 明 这 样 的 网 络 与 Rosenblat 感知 器 的 联系 比 和 与 多 层 感 
知 器 的 联系 更 紧密。 然而 ，RBF 网 络 与 感知 器 是 不 同 的 ， 因 为 它 能 实现 对 输 和 人 空间 进行 任意 
的 非 线 性 变换 。 这 一 点 在 XOR 问题 上 已 经 说 明 得 很 清楚 ， 因 为 XOR 问题 不 能 用 任何 线性 感 
Aah, (HER RBF 网 络 来 解决 。 


5.12 核 回 归 及 其 与 RBF 网 络 的 关系 


目前 为 止 给 出 的 RBF 网 络 的 理论 都 是 建立 在 插值 的 概念 上 的 。 在 这 一 节 中 ， 我 们 将 采 
用 万 一 种 观 氮 ， 即 建立 在 密度 知 计 的 概念 之 上 的 核 回归 {kemel regression) 的 观点 。 

其 体 地 ， 再 次 考虑 式 (5.95) 的 回归 模型 ， 为 了 方便 表达 将 其 重 写 在 下 面 : 

vy, = f(x,) +.6,, pe lye aay 

我 们 可 以 取 某 一 点 X BREA RR y RE SEA Se F(x) 的 合 
理 估计 。 但 是 ,为 了 达到 这 一 日 标 ， 局 部 平均 必须 限制 在 x 的 一 个 较 小 的 邻 域内 ( 即 接 受 
域 )， 轩 为 一 般 情 况 下 ， 高 x 较 远 的 区 域 将 会 有 不 同 的 观察 值 。 进 一 步 ， 从 第 2 章 给 出 的 讨 
论 我 们 得 到 f(x) 等 于 给 定 x IEP y 的 条 件 均值 ( 即 在 x 上 y 的 回归 )， 表 示 为 


f(x) = Ely |x] 
7A FALE RT 
fix) = B vf y | x) dy (5.126) 
其 中 fy Cy (a) ke Y LA x ARE aR EE EE RA (probability density function, pdf )。 由 概率 
论 ， 我 们 有 
fyly |x) = fg (5.127) 


上 式 中 fy (x) x BY pd, A(x, yD EX AMY RA pdt. Bik, AGIRA 
(5.126)， 我 们 得 到 回归 消 数 的 下 列 公 式 : 
| vfx r (XY) dy 
人 
我 们 感 兴趣 的 是 联合 概率 密度 明 数 fy(x,Y) 术 憩 的 情况 。 我 们 所 知 的 只 有 训练 样本 
(xy. AT IEI 让 ;7 以 及 太公， 可 以 应 用 一 个 非 参 数 估 计 器 ， 通 称 为 Parzen- 
Rosenblatt 4 Æ ttt B (Rosenblatt, 1956, 1970; Parzen, 1962 )， 形 成 该 估计 咒 的 基础 是 校 ， 用 符 
号 大 (z) 表 示 ， 它 县 有 与 概率 密度 浮 数 相同 的 性 质 ， 
。 核 天 (X) 是 一 个 美 于 各 的 连续 月 界 的 实 函 数 ， 它 关于 原点 对 称 ， 且 在 原点 取得 野 大 
{E a 


(5.128) 
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iP sep BE eB BE PB BH 27] 


a a Er = se ë ha D n — m —, —— ——, 和 ee SS Şe 


。 在 核 K(x) od de Fe SARET l; 即 对 于 一 个 m HE Oe x A 
| KO dx = 1 (5.129) 
局 


(RIE x). Xp, tt, Xy EAEG pja n pI REELE H, 我 们 可 以 是 关 A CK) BY Parzen-Rosenblatt 密度 
AAPA 





A(x) = pa DK) xe we (5.130) 
HPHBESR 是正 数 ， 称 为 带宽 或 简称 为 觉 ; 疡 控制 着 核 的 宽度 - 《请 注意 不 要 将 这 里 
HI h 5.5 5HE Fréchet 导数 的 PAIL. ) Parzen-Rosenblatt 密度 估计 器 的 - -个 重要 性质 
RURA th it a CRT JER), PER REE A = ACN) OA N 的 函数 使 得 
lim ACN) = Ü 

BBA lim El fy (x) ] = fx} 
为 了 上 上 式 成 立 ,，x 必须 是 (x) 中 的 连续 点 。 

用 与 式 (5.130) 描 述 的 类 似 方 法 ， 我 们 可 以 得 到 联合 概率 密度 也 数 fi y (x,y) 的 Parzen- 
Rosenblatt #2 (HiT 20 F ， 


fary) = want DKHA 25) xe RY ER (5.131) 
对 fx.y(x，Y) 作 关于 y WAYS, WRG. BOM AC), ARK. mE 
请 X — Xi ra> 
| aro y)dy = Nae S(s VW k| h ja 


对 上 式 作 变量 代 换 ， 全 zz=(yr — yA, “oe K(*) 的 对 称 性 可 得 


z-a.) 


| arya = ay > yx F 


AU, AGES. 32A. OP REARS DTA E. THUG, Fea 
REPARA f(x AY Fait 














(5,132) 


> vk (i) 


总 一 总 
TE 
为 了 清晰 起 见 ， 上 式 中 我 们 将 分 母 中 的 求 和 下 标 i Aj 就 像 一 般 的 RBF 网 络 ， 由 式 
(5.133) E MAURIS ATT aE F(z) 是 一 个 通用 逼近 器 。 

Pee) A AA RTBU F(x): 
l . Nadaraya-Watson BS iit B cE MISA A AK 
K{ X= 
W,.(x) = 一 | ae ) i= 1,2,-°.N (5.134) 


kx) 
其 中 D W(x) = = 1, 对 所 有 的 x (5.135) 
我 们 可 将 式 (5. 133) 所 示 的 核 回归 估计 简写 成 


Fix) = f(x) = (5.133) 
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F(x) = > W, (x) y, (5.136) 


ERE Fx) MEAW y TY et ii IA (5.136) 2 iH KY AR PA OW, Cx) JÉ E H 
Nadaraya( 1964) FU Wawson( 1964) fe ti EJ, MrELA (5.136) PUR PTE AR ERA Nadaraya-Watson 
E a tkt 3 ( Nadaraya- Watson regression estimator, NWRE)!"- - 

2. 昌 一 化 的 RBF A. HTE A, FRR KOER AAS, EEREN REA 
UA (Krzyzak et al. , 1996 ) 








NESES 2 DiE 对 所 有 i (5.137) 
|| + | AREA ARH RIL RR, AI Lee aR BRY 
KÍ | x — x, | | 
[296] W,(x,x,} = Sdi T j i= 1,2,--,N (5,138) 
i h 
其 中 ， 对 所 有 的 x 有 
ocx) =| (5,139) 


Wy Ox.x, PPE Bopp N 表示 使 用 归 一 化 (normalization ) 。 
对 于 这 里 所 讨论 的 回归 问题 ， 我 们 可 以 看 出 应 用 于 基 函 数 Vel, x ) 的 “线性 权 值 "ww ， 就 是 
回归 模型 中 对 应 于 x 的 观察 值 y 。 因 此 令 
a 
找 们 可 以 重新 将 式 (5.133) 所 示 的 允 近 函数 写成 一 般 形式 
F(x) = Sh, Wy (xx, (5.140) 


式 (5.1 和 0) 表 水 的 是 一 个 归 一 化 RBF 网 络 的 输 和 人 - 输出 映射 (Moody and Darken, 1989; Xu et al., 
1994), TERE, MPAA x Ax 
0 s Fixx) < | (5.141) 

VI, Wy Cx, x, AT RR REO x, 为 条 件 的 由 输入 向 量 x JER SE 

A (5.138) AVA —1h 42 eR WV, (x, x, )- SARE ERR A ISM Vy (xx, ) 有 一 
个 组 成 归 一 化 因子 的 分 母 。 归 一 化 因子 是 关于 输入 向 量 x 的 固有 pdf。 因 此 ， 对 所 有 的 x HERR 
A 于 yxX,X) 的 入 项 之 和 等 于 1， 即 式 (5.139),。 与 此 相对 ,一般 RBE 网 络 的 菇 {格林} 函数 
(HR 5.57) 却 不 一 定 满足 这 个 条 件 ， 

这 里 大 于 式 45.138) 摘 述 的 输入 - 输出 映射 F(z) 的 推导 应 用 了 密度 估计 的 概念 。 与 超出 
面 的 重建 问题 相似 ， 密 度 佑 计 是 一 个 不 适 定 的 问题 、 为 了 使 其 适 定 ， 必 须 应 用 正则 化 的 其 和 神 
形式 。 我们 可 以 在 正则 化 理论 (Vapnik,1982 ) 的 框 集 下 推导 Parzen-Rosenblatt 密度 估计 器 ， 从 
而 推 寻 Nadaraya-Watson 回归 估计 髓 ， 当然， 密度 估计 中 的 代价 泛 函 与 式 (5,23) 的 确定 性 
Tikhonov 沦 卫 有 甩 不 同 。 密 度 估计 中 的 代价 泛 函 包括 两 玖 ，-… 个 包含 未 知 概 率 密度 咕 数 的 汝 
起 平方 项 和 一 个 稳定 江东 的 适当 形式 ， 
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CE pe] AB vB PPS 


— 1 = — = — Fim 





多 元 Gauss 分 布 


JRR LA a PE Be PP PR. HE, ISS Pe FREE. 与 
IRAR FE, 广泛 地 使 用 多 元 Gauss 分 布 作为 核 函数 ， 


oo a xt?) 
Kix} = Tanya XP - 3) (5.142) 


TEP, m ERA m GE x ee. 很 明显 ， 式 (5.142) 所 示 的 核 天 (X) 具 有 球 对 称 性 、 假 设 使 
FAH IR) ASR CAP Ro, o 与 光滑 参数 疡 对 香 一 个 Gauss 分 布 的 作用 相同 ， 量 以 x, TRAE EE 
数 的 中 心 ， 我 们 可 三 成 


oe 上 
h = f aes yr? Exp Js " 


内 上 此， 使 用 式 (5.143)，Nadaraya-Watson 回归 个 计 可 以 写成 (Specht，1991) 


xes 
S) y, exp = a 


PO Re e ee (5.144) 
lx — x, |l° 
p> exp| -一 a 
HPA EE ER Parzen-Rosenblatt ER Eita, HON SURE Xin Mm, ', Xy A PDMS 
JL { rass 他 布 之 和 构成 . 
相应 地 ， 将 式 (5.143) 代 人 (5.,138) 和 (5.140}， 可 以 得 到 上 归 一 化 RBF 网 络 的 输入 - 输出 
PUA PRAHA FHS 


S Lea ea (5,143) 








一 “Step ET (5.145) 
expl — —— 
一 P yo 


在 式 (5.1 和 ) 和 式 (5.145) 中 ， 归 一 化 径 向 基 薄 数 的 中 心 与 输入 数据 点 |x 1% ee, BO 
般 径 问 基 好 数 相同 ，9| 蓉 使 用 较 小 数量 的 归 一 化 径 同 基 消 数 ， 它 们 的 中 心 看 作 自 由 参数 可 以 
根据 某 种 司 发 陈 方 法 选择 ， 或 音 可 以 按 革 种 原则 确定 (Poggio and Cirosi,1990a)。 


5.13 2S RR 


WRAS BARC. te inl ee mC RB) PARR RE PEF 3) oT, 与 网 
Him oP ae BY Ee AE ee AY Ee HEM S RRO EEE a AS [a] “Bt fa] RE 
Fare). AE., Sa Ria BU a eR Be TE SER TE Bet GT RE ie, PH 
便 却 是 根据 线性 最 优 策略 进行 快速 再 整 。 重要 的 是 , 在 RBF 网 络 中 ， 不 同 的 层 起 着 不 同 的 
作用 . 因此 ， 对 于 隐藏 层 和 输出 层 采 用 不 朵 的 最 优 策 略 是 合理 的 ， 也 许可 以 合用 不 同 的 时 间 
及 上 度 来 实现 (Lowe,1991a) . 

根据 网 络 征 同 基 眼 数 中 心 的 确定 方法 不 同 ， 在 设计 RBF 网 络 上 有 不 同 的 学 习 策 略 。 这 
里 我 们 将 介绍 四 种 方法 。 所 二 种 设计 策略 是 建立 在 插值 理论 的 基础 之 上 的 。 最 后 一 种 设计 第 
隆 将 结合 止 则 化 理论 和 核 回 归咎 计 理论 的 理论 . 
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1. 随机 选取 国定 中 心 

最 简单 的 方法 是 假设 定义 隐藏 单元 的 激活 冰 数 是 固定 径 向 基 函 数 。 中 心 的 位 置 可 以 用 随 

机 的 方式 从 训练 数据 集合 中 选取 。 如 果 训练 数据 是 以 当前 问题 的 典型 方式 分 布 的 ， 则 该 方法 

中 以 被 认为 是 一 个 “明智 "的 万 法 (Lowe,1989 )。 对 十 径 疝 基 函数 本 身 ， 我 们 可 以 用 一 个 各 向 

问 铂 的 Gauss 函数 ， 它 的 标准 偏差 是 根据 中 心 的 散布 而 固定 的 。 特 别 地 ， 一 个 以 上 为 中 心 的 
(局 一 化 的 ) 径 问 基 男 数 定义 为 

ECx- 11) = ep(- 人 和， b= Lm (5.146) 

其 中 m 是 中 心 的 数 日 ，d, 是 所 选中 心 之 间 的 最 太 路 离 。 可 以 看 出 ， 所 有 Gauss 440 eee 
的 标准 偏 莽 ( 即 宽度 ) 部 同 定 为 





oo = 


d 
= (5,147) 
DIT, 


F 
EARI 7) £2 ERARE ERER, BERERE; GPL BAS Bee, HE 
为 (5.147) 的 男 - PPE RIET AERE OE ERT SUKI A 
中 心 ， 这 要 求 对 训练 数据 作 实 鉴 。 

在 这 种 方 靶 中 ， 人 惟一 需要 学 习 的 参数 就 是 输出 层 上 的 线性 权 值 。 求 输出 权 值 的 一 个 直接 
的 方法 就 是 伪 首 法 (Broomhead and Lowe, 1988 )。 特别 地 ,我 们 有 {也 可 参看 式 (5,77) 各 式 
(5.78)) 


其 中 d 是 训练 集合 中 的 期 望 响应 向 量 。 窍 阵 G EE GH, WR GER 
G= |g! (5.149) 
其 中 
E = exp{ - “a |x, t= 1.2.7, N;i = 1,2,0, m (5.150) 


ERP x, VERE SB TMA 14) Bt 
ST Ae BY Ag TE A 2p FE ASV) Golub and Van Loan, 1996): 


WRG HOP NxM BR, UE ERS 
U = ju... Uy! 


Fe 有 = 
使 得 U'GV = diag(lo ,0 ,i 0p), K=min(M,N) (5.151) 
其 中 Oo, 0) tea, > 


JERE U MN RON G ADE, EPE VM G BAR AB. 0sm, o 称 为 
坷 异 值 。 根 据 奇 异 值 分 解 定理 ， 矩 阵 G 的 M x N 阶 伪 逆 定义 为 


G = VE HU (5.152) 
其 中 五 是 一 个 由 好 的 奇异 值 决定 的 Nx N BERE, 
a = diug 5-15 01713-1050) (5.153) 
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IFAR fh A FIA Golub and Van Loant1996) 中 有 详细 介绍 。 

有 趣 的 是， 根据 应 用 随机 选取 中 心 方法 的 经 验 表 明 ， 这 种 方法 相对 来 说 对 正则 化 的 使 用 
BREUER, 参看 习题 5.14， 它 使 用 这 种 方法 在 计算 机 上 实现 模式 分 类 ， 这 种 性 能 提示 ， 从 
一 个 图 定 太 小 的 大 规模 训练 集合 中 随机 选取 中 心 的 RBF AQ tl ae, RHA SiS wit 
皆 是 -~ 种 正则 化 的 方法 。 


2. 中 心 的 目 组 织 选 择 


网 才 描述 的 固定 中 心 的 方法 主要 缺陷 号 为 了 达到 件 能 的 满意 水 平 沉 要 一 个 王 大 的 训练 集 
合 ， 死 服 这 一 限制 的 一 个 方法 够 是 使 用 一 种 混合 学 习 过 程 ， 包 括 下 而 项 个 不 同 的 阶段 (Moody 
and Darken, 1989; Lippmann, 1989b; Chen et al. , t992): 

。 ARERR, EM AREA ee ese Ae ER, 

。 监督 学 习 阶 段 ， 它 通过 估计 输出 层 的 权 值 完成 神经 网 络 的 设计 。 

虽然 可 以 用 批 处 理 来 执行 上 述 两 种 学 习 阶 段 ， 但 是 用 自 适应 ( 先 代 ) 的 方法 更 理想 。 

对 于 下 组 织 学 习 过 程 ， 我 们 需要 一 个 阳 类 的 算法 将 所 给 的 数据 点 痢 分 成 几 个 不 同 的 部 
分 ， 每 一 部 分 中 的 数据 都 尽量 有 相同 的 性 质 。 一 种 这 样 的 算法 为 下- 均值 聚 类 算法 (Enda and 
Hart,1973)， 它 将 径 同 基 画 数 的 中 心 放 在 输入 空间 多 中 重要 数据 点 所 在 的 区 域 卜 。 今 m 表示 
径 阿 基 顶 数 数目 ; m 要 依靠 试验 来 决定 取 何 种 适合 值 . Sinil EnB 
n KARRE PD., WA, 下 =- 均值 聚 类 算法 进行 如 下 ; 

1. 和 初始化。 和 迹 择 随机 值 作 为 中 心 人 40) 的 初始 值 : 惟一 限制 是 要 求 每 一 个 中 心 的 初 值 不 
同 。 将 中 心 的 欧 几 里 德 范 数 保持 为 较 小 的 值 可 能 会 更 理想 一 些 ， 

2. 抽取 样本 。 在 簿 人 空间 多 中 以 某 种 概率 抽取 样本 向 量 x， 作 为 第 n 次 选 代 的 输 人 向 
FE 

3. ADAP BC, k(x) Reh A ta aE x PR EE ESR HD TIR 第 n RGR 
代 时 按 欧 几 里 德 最 小 距离 准则 确定 上 (x) 的 值 . 

k(x) = arg min | x(n) -—t,€n) || ,& = 1,2,-+,m, (5.154) 
FL t, Cn fe ano k PS EBT SE RACE n 次 选 代 时 的 中 心 。 

4. 297. A PPR ALM 1S se SEY : 

t.(n) + qlx€n) -—t,¢n)], k = k{x) 


t.(n), 其 他 情况 nme 


tin +1) -| 


EF yn dese de, HO<q<1. 

5. 4S. Hn NH), HBA 24, BRERA, Bal Pet, 的 改变 量 很 小 时 为 
tk. 

这 里 所 说 的 让 -均值 聚 类 算法 实际 上 是 竞争 { 胜 者 全 得 ) 学 习 过 程 的 一 种 特殊 情况 ,，- 它 通 
PRA AHRR, RIES 9 章 中 详细 讨论 。 后 一 算法 也 适 于 实现 自 组 织 学 习 阶 段 ， 

-均值 聚 类 算法 的 一 个 局 限 在 于 它 只 能 达到 依赖 于 所 选中 心 初 值 的 局 部 最 优 解 。 因 
此 ,计算 资源 就 有 可 能 浪费 ， 因 为 -- 些 中 心 的 初 值 可 能 位 于 输入 空间 中 稀少 数据 点 的 区 域 ， 
因此 它们 被 有 机 会 移 到 它们 所 寡 的 新 位 置 去 。 最 终 的 结果 可 能 就 会 是 不 必要 的 大 网 络 。 为 了 
克服 传统 的 - 均值 聚 类 算法 的 局 限 ，Chen(1995) 提 出 了 使 用 一 种 增强 率 -- 均 值 珍 类 算法 ， 
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该 算法 归功 于 Chinrunrueng and Séquin( 1994), EEV TEER WAN AR a, P AAE 
FEAF- Pe EMAAR. MSP Rae ACK. 

EAH k- EV RRR Reals Ea Sal BP Gauss 4! 42 [5] SE Sa Po a HE 
Reo, Hoeoaltee TARE PE ee AAA. Pe BAT ERE 
se 3 莉 中 介绍 过 的 最 小 均 方 (LMS) 算 法 。 隐 着 单元 产生 的 输出 信号 问 量 构成 LMS 算法 的 输 人 
问 量 。 注 意 ，jy 用 于 光臣 单元 的 -均值 内 类 算法 和 应 用 于 输出 单元 的 LMS 算法 可 以 用 并 行 
的 方式 分 别 进 行 各 日 的 计算 ， 从 自如 局 训 练 过 程 ， 


3. 中 心 的 监督 选择 

在 第 3 种 方法 中 ， 径 向 基 薄 数 的 中 心 以 及 网 络 的 所 有 其 他 自由 参数 部 将 经 历 一 个 监督 学 
SH. HDG, RBF 阿 络 将 采 上 到 其 最 一 般 的 方式 ， 这 个 方法 的 上 自然 后 选 是 采用 误差 修 
下 学习 过 程 ， 这 祁 方法 可 以 很 方便 地 来 用 梯度 下 降 法 ， 它 代表 LMS 算法 的 一 种 推广 。 

建站 这 种 学 习 过 程 的 第 一 步 是 定义 代价 耳 数 的 阵 时 值 
其 中 NN 是 用 于 学 习 的 训练 样本 数 日 ，e ARES, MHI: 





= d,- F (x) = d,- >) wG | x; -t le) (5, 157} 
目标 是 找到 使 志 最 小 的 自由 参数 w., t 和 五 HARA AER MEGER C 有 关 }。 晨 小 化 
PARITA 5-4 中 ， 这 些 结果 的 推导 将 在 习题 5,13 中 作为 练习 留 给 读者 。 表 5-4 PAL 
点 值得 注意 : 
Ro 线性 权 值 的 自 适 应 公式 和 RBF 网 络 中 心 的 位 置 和 散布 


1. 线性 权 慎 (输出 层 ) 


IEn) È 
asta) = PoC ls =E g) 





可 
= 了 = ait 
2. Pde F Pate 


FEC nd 3 ) ae 1 
bt. tn) = w, On Dy slare | x, 一 ttn) | E E; _X, -tiat! 





tin tl) = hin) -ih veka) L = ge tty 
3. 中 心 扩 ‘ 寡 ( 隐 茂 层 ) 


Etin) 2 , 
Ge wim) gue (. & = tCa) | y Qin) 





Qta = [x -tía lla —¢(2)]" 


=] = 一 | d Gla) 
E {n + 1} = Le; tt) — 3 IE ln} 


* Mle Ca) zeta th RT j ENA a EA, M COE Geen 函数 GORTERA SENS. 


”代价 函数 对 于 线性 权 值 w, EEn, (ER p> t, AERE D KRH RED 
的 ; Ehita T, t 和 三， 的 取 值 可 能 会 陷入 参数 空间 的 上 的 一 个 局 部 最 小 值 
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处 。 

。 参数 w, t MO 的 更 新 公式 中 的 学 习 率 应 为 不 同 的 值 六 mA o 

*。 与 友和 疝 传播 算法 不 同 ， 表 54 所 列 的 RBF 网 络 的 樟 度 下 降 法 中 没有 误差 反 向 传播 。 

。 BRE RIE (at, HARARE RSL, RRR ESF AY (Poggio and Cirosi, 1990a )。 

在 梯度 下 降 法 的 初始 化 过 程 中 ， 通 党 部 希望 由 参数 空间 的 -- 个 络 构 化 初始 条 件 开 始 ， 这 
一 季 件 限制 搜 案 的 参数 空间 区 茂 使 我 们 在 书 郑 的 有 用 区 域 中 搜索 ， 这 可 以 通过 栋 准 的 模式 分 
类 法 来 实现 (Towe,1991a )。 应 用 这 一 方法 ， 彼 化 到 权 值 空间 非 期 户 的 局 部 最 小 值 的 叮 能 性 将 
mi. PRD, FRY TAP LAM —--> Gauss 分 类 第 开始， 该 分 类 化 很 设 每 一 类 中 的 每 -个 模式 都 是 
M Gauss 分 布 中 抽取 的 ; 基于 Bayes 假设 拉 验 过 程 的 模式 分 类 器 的 这 种 特殊 形式 在 第 3 章 中 
已 经 讨论 过 了 了 。 

任 讨论 的 这 个 阶段 出 班 的 问题 是 ; 日 天 应 选取 径 疝 基 冰 数 的 中 心 的 位 置 能 得 到 什么 好 
处 ? 这 个 问题 的 管 案 当然 仿 球 于 实际 应 用 。 昌 然 邵 此， 根据 一 些 文 献 报 告 的 结果 ， 多 许 中 心 
移动 确实 能 得 到 一 些 实际 的 好 处 。Lewe( 1989) 将 RBF 网 络 应 用 于 语音 识别 的 工作 结果 表明 ， 
并 和 末 雪 求 最 小 的 网 络 配置 的 话 ， 用 非 线性 参数 优化 的 方法 是 有 利 的 。 但 是 ， 据 Lowe PRS, 
用 一 个 更 大 的 RBF 阿 络 可 以 达到 同样 的 泛 化 效果 ， 这 里 所 谓 更 大 的 神经 网 络 就 是 隐藏 层 具 
有 更 多 国定 中 心 各 仅 用 线性 优化 的 方法 来 调整 输出 层 的 网 络 。 

Wettschereck 和 Dietterich(1992) 曾 经 对 应 用 国定 中 心 的 (Gauss 型 } 符 向 基 明 数 网 阁 和 应 用 
可 调 中 心 的 广 闵 径 向 基 硝 数 网 络 的 性 能 作 过 比较 ;在 后 一 种 情 沉 中 心 位 置 是 由 监督 学 习 确 定 
No EREKCIE SE XT NETtalk 任务 进行 的 最早 的 NETtalk 试验 是 由 Sejnowski 和 Rosenberg 
(1987) 使 用 多 质感 知 伸 进行 的 ， 训 练 所 用 的 算法 是 反问 传播 算法 ; 这 将 在 第 13 章 中 介绍 。 
Wettschereck 和 Dietterich 蝎 试 验 目 的 是 为 了 了 解 覃 经 陪 络 是 如 何 将 砚 语 拼写 觅 射 为 语音 的 发 
Ho Wettschereck 和 Dietterich 在 NETtalk 上 所 作 的 试验 研究 可 以 小 结 如 下 : 

* RBF 网 络 ( 对 中 心 位 置 邓 用 无 监督 学 习 ， 对 输出 权 值 向 量 采 用 监督 学习 } 不 如 儿 层 感 

All ig Pe OE Bz) FS) ET SS 

e J XM REF Blas POVER a PER Ae) Be ERENT A ee Be 

iA SS PEE 


4. 正则 作 严 格 播 值 法 


结合 第 5.5 节 的 正则 化 理论 和 第 5.12 节 的 核 回 归 佑 计 理 论 的 基本 原理 的 RBF 网 络 设计 
的 方法 在 Yeet1998) 摘 述 、 坊 方法 包括 组 合 利 用 以 下 四 个 组 成 部 分 ， 

1. EMER G, BY EAD C BE vir A SEP fg Be) — a CF) Nadaraya- Watson 回归 估计 
(NWRE) 的 核 。 

2. SARA RAS 瑟 ”， 对 具有 

E = diag(h,, hrs Rha ) (5,158) 

的 所 有 中心 是 共同 的 ， 其 中 hj, hrs ot, Ra 是 其 有 (缩放 后 ) 核 6 的 Bt NWRE 的 每 个 维 的 
带 党 ， 如 同 以 前 设置 的 -- 样 ， 而 m。 是 输入 空间 的 维 数 。 例 如 ， 我 们 可 以 商户 sad, isl, 
2，…，mo， 式 中 a 表示 第 i 个 输入 安 量 的 样 木 方差， 它 是 从 已 知 的 训练 输入 数据 中 和 估计 而 
来 的 。 正 的 输入 缩放 因子 m ,ow ,… ,a 可 以 通过 适当 的 交 义 依 认 《cross-validation , CV) i 
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Bika, WE 5.9 THEME. 
3. FAHER I, E ERER Sp 1) RR PEAR E 
4. jeter AE, AAS. IPARA S E Bk (5.121) Bras By GCY 
E, REMES I KANAT a, w, i, Om, a AFERE Ay AH Qn F: 
。 EARRA, WEA MERMEN TREE. 
© HERRE — FE ey CY Gaus UR PRET, ERE a, PER), 
则 整个 网 络 的 输出 对 相应 的 输入 维 越 敏感 。 相 反 ， 厂 菜 个 a, 越 大 ， 则 整个 网 络 输 出 
对 该 输入 维 的 变化 就 越过 纯 。 因 此 ， 我 们 可 以 通过 a 的 选取 来 标明 每 一 个 输 人 变量 
的 重要 程度 ， 从 而 疗 守 要 降低 维 数 ， 可 以 将 无 关 竖 要 的 输入 维 删 去 。 
上 述 设 计 过 程 的 合理 性 在 Yeet1998) 中 有 详细 的 讨论 我 们 选择 这 种 设计 方法 的 目的 可 
以 解释 如 下 。 可 以 证 明 NWRE 与 一 种 特殊 类 别 的 正则 化 RBF 网 络 相对 应 ， 也 就 是 说 ， 对 于 
尾 意 的 NWRFE， 我 们 都 可 以 构造 一 个 适当 的 正则 化 RBF 了 网络 序列 ， 当 其 正则 化 参数 序列 上 | 
a NOIRE AR G a FAAA m A aA SER ATAA, RBF 网 络 与 
NWRE Zi HH AAR SE, AER i a WA HAER RBF 26 iF 
TA NWRE。 在 男 一 方面 ， 当 No, (ERRAR RAFF PB ) R599) ATE S A A eS e] 
于 (全 局 ) 均 方 误差 。 WRAPS AR RIE BEML Ryo, MWA, HA 
造 ， 这 样 得 到 的 RBF 网 络 结果 序列 一 定 具 有 !( 渐 近 ) 最 小 均 方 差 的 RBF 网 络 ， 这 里 最 小 是 相 
对 于 所 有 可 能 的 正则 化 参数 序列 的 选择 ， 其 中 包括 与 NWRE 相对 应 的 那个 选择 。 如 果 已 知 
NWRE 均 方 误差 相 容 的 条 件 成 立 ， 则 根据 同样 过 程 设计 的 RBF 网络 也 是 均 方 益 由 容 的 。 换 
各 话说 ， 用 上 述 方 法 得 到 的 RBF 网 络 继 承 了 NWRE 的 相 容 性 。 由 这 一 结论 ， 我 们 可 以 将 
NWRE 的 相 容 性 结果 应 用 于 诸如 时 间 太 列 回 下 | 等 的 研究 中 ， 在 这 一 类 研 容 中， 相关 和 非 稳 态 
的 情况 经 各 册 见 ， 而 假设 有 具有 独立 同 分 布 的 训练 数据 和 和 稳 态 过 程 的 一 般 的 神 轻 网 络 对 这 类 问 
题 居 无效 的 。 总 而 言 之 ,通过 组 合 正 则 化 理论 和 核 回 归 估 计 理 论 的 基本 原理 ,这 里 如 出 的 度 
计 过 程 提供 了 用 于 正则 化 RBF 网 络 设计 和 应 用 的 实际 规定 的 理论 文 持 。 


5.14 计算 机 实验 : 模式 分 类 


在 这 一 节 中 ， 我 们 将 通过 计算 机 实验 米 前 明基 于 使 用 严格 插值 法 的 正则 化 RBF 网 络 的 
设计 。 这 个 计算 机 实验 是 一 个 二 全 分 类 门 题 ， 其 中 的 数据 是 从 与 类 电 MAC, 相对 应 的 两 个 
等 概率 的 交叉 二 维 Gauss 分 布 中 抽取 的 。 有 关 Gauss 分 布 的 详细 内 容 与 4.8 节 中 所 述 的 一 样 。 
786, 的 均值 向 量 为 [0,0]”， 公 共 方 差 为 1; 类 中 ,有 的 均值 向 基 为 [0,2]”， 公 共 方 其 为 4。 这 
一 节 描 述 的 计算 机 实验 可 以 看 作 正 则 化 RBF 网 络 和 第 4.8 节 的 反问 传播 学 习 实 验 的 对 应 部 
SD 

AAA TES, 和 所 ,， 构 造 正 则 北 RBF 网 络 具 有 两 个 输出 单元 ， 每 个 对 应 一 类 。 同 样 ， 
二 值 类 指示 器 输出 用 作 期 望 和 输出 值 ， 表 示 为 

i ~ f 如 采 p BTR, 
o HAG 
Fh £=1, 2, 
FLTETT SEB. BOAT RR eS he AP EA FO A. FE Yee ( 1998 ) 42 iE HH GF 
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则 化 RBF P2843 28 dr Ai Pe — Pa ee aT. ak Pa e RA TA H HA H g d Ay 
ARARA A EER A A a BITNE ah 4.55) EA A E R ie a 
WE 

选择 对 应 于 最 大 输出 通 数 的 糯 ， 

中 心 选 择 的 严格 插 人 法 用 不 同 正 则 化 参数 入 的 值 进行 测试 。 对 一 个 指定 的 和 ， 由 式 
(5.54) 我 们 就 可 以 算出 RBF 网 络 输 出 层 的 权 值 ， 表 水 为 

w= (G+ AbD "'d 

其 中 在 是 一 个 入 x N 阶 的 Green EFE, CRS 元 个 元 素 是 径 向 对 称 的 Green BIR G(x, x), 
N 是 样本 的 大 小 , d Rh le. 

对 每 一 个 正则 化 参数 入 ， 总 体 由 50 个 独立 的 阅 络 构成 ， 每 一 个 网 络 都 用 内 有 1000 个 模 
式 的 相同 的 参考 集 进 行 测试 。 

R 5-5 2A 4 m = 20 个 中 心 时 止 确 分 类 概率 的 总 体 统 计 (ensemble statistic), (dé 
统计 根据 不 同 的 X 值 进行 计算 。 表 5-6 给 出 的 是 具有 m = 100 个 中 心 的 RBF 网 络 的 相应 结 











Heo 
$55 隐藏 层 中 心 大 小 m =20， 音 种 正则 化 参数 详细 的 正确 分 类 概率 
| EMES, å 
总 体 统 计 0 0.1 l 10 100 1000 
= 5E o ya Rg O ag ha 
HERE 7.47 4.11 3.4! 4.17 4.98 509 
最 小 44. 20 61.60 65.30 63.10 60.%) 50. 50 
RA 72.70 78.30 78.90 719.20 79.40 79.40 
表 5-6 隐 屋 中 心太 小 m = 100， 各 种 正则 化 参数 详细 的 正确 分 类 概率 
| FUREY, A | 
总 体 统 计 4) 0.1 1 10 100 1000 
均值 50.58 7.03 £47.72 77.87 76.47 78,33 
WEWE 4.70 1.45 0.94 0.91 L.62 2.25 
最 小 41.00 70.60 75.10 75.10 72.10 70.10 
最 大 61.30 79.20 79.80 79.40 78.70 78.20 
图 5-7 E7 RESEMER A = LOTR ZA Pe RR, EHS REA 
计 结 采 。 图 5-7 Baar eT AP RR RS: 图 的 两 部 分 对 应 
的 都 是 100 个 中 心 的 情况 。 
比较 表 5-5 和 5-6 我们 可 以 发 现 . 
L. Xfm, =20 个 和 m=100 个 中 心 ， 当 入 =0 时 ， 网络 的 分 类 能 访 都 较 差 , 
2. 正则 化 方法 的 使 用 对 RBF 网 络 的 分 类 能 力 有 着 明显 的 影响 。 
3. 20.1 时 ， 网 络 的 分 类 性 能 随 着 的 增加 变化 不 太 。 在 中 心 为 320 个 的 情况 下 ， 当 
A= 工时 分 类 性 能 最 佳 ; 在 中 心 为 100 个 的 情况 下 ， 当 和 = 10 时 分 类 性 能 最 住 ， EJ 


4. 当中 心 数 由 20 增加 至 100 时 ， 网 络 的 分 类 性 能 增加 了 约 4.5% 。 
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图 5-7 Æ rR E e RBF 网 络 模式 分 类 的 试验 结果 
alee 6b) Be Fe 
虚线 (实心 ) 圆 表示 最 优 Bayes A 
5.15 p MTE 


RBF MH ae EAE LAS, HAARE A a RAE Ae H 
P42 fh ERE RSIS ee, SL RBF 网 络 的 理论 Se ARE CA A 
联系 ， 径 向 基 函 数理 论 是 数值 分 析 中 的 一 个 主要 研究 领域 (Singh,1992)。 男 外 值得 注意 的 在 
由 于 输出 层 的 线性 权 值 是 可 调 参 数 ， 通 过 对 线性 和 白 迁 应 滤波 器 的 有 关 文 献 的 研究 ， 我 们 可 以 
得 到 里 多 结果 . 

语 采 财 反 向 传播 算法 的 多 层 感知 器 不 同 ，RBF 网 络 设计 采用 党 理化 的 方法 .特别 是 5.5 
45 4> 44 69 Tikhonov 正则 化 理论 为 RBF 网络 的 形成 提供 坚实 的 数 和 学 基础- 在 这 个 理论 中 Green 
PAX C(x,&) 起 着 关键 作用 。 作 为 网 络 基 晴 数 的 Green 消 数 形式 是 由 正则 化 理论 应 用 中 的 光 
洪 度 约束 所 决定 的 。 由 式 (5.63) 所 示 的 微分 算 子 DD 指定 的 光滑 度 约束 将 导出 多 元 Gauss PAY 
作为 Green 函数 ， 微 分 算 子 DD 不 同 ， 自 然 Green ARRIE A tE ATE o 记 住 ， 当 放宽 要 求 基 明 
数 比 数据 点 少时 ,减少 计算 复杂 性 就 成 为 确定 光 消 正则 化 网 络 的 一 个 重要 因素 。 这 可 能 十 在 
正则 化 RBE 网 络 设 计 中 使 用 其 他 函数 (如 习题 $.!1 所 描述 的 薄板 样 条 函数 } 作 为 基 沙 数 的 “个 
ER, 无论 选 择 什么 样 的 函数 作为 基 洒 数 ， 为 了 将 正则 化 理论 的 优点 完全 应 用 于 RBF 网 络 
的 设计 中 ， 我 们 都 需要 一 个 原理 化 的 方法 来 估计 正则 化 参数 X。5.9 节 所 介绍 的 广义 交叉 确 
认 满 足 了 这 个 党 要 。 使 用 广义 交 灵 确认 的 理论 基础 是 渐 近 的 ， 这 就 要 求 有 一 个 足够 大 的 训练 
集合 ， 才 能 得 到 理想 的 和 的 佑 计 值 。 

另 一 个 设计 RBF 网 络 的 原理 化 方法 是 通过 核 回 归来 实现 的 。 该 方法 使 用 密度 佑 计 , 对 
于 密度 知 计 ， 径 向 基 函 数 之 和 等 于 1。 多 元 Gauss 分 布 提供 满足 这 一 要 求 的 便利 方法 。 

aZ., Gaus 型 RBF 网 络 所 实现 的 输入 — 输出 映射 与 混合 专家 系统 所 实现 的 输入 -输出 
映射 很 相似 。 后 一 模型 将 在 第 了 章 中 介绍 。 
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注释 和 参考 文献 


[1] 


L7] 


(fl A H e E TERRE SER E A RA ALEE Powell 
(1985) FARETE. WEBER RREM ost PANTERA. 
Broomhead and Lowe (1988) H 76-4 42 m Zé 08 BX FF PA SR TT Poggio and Girosi 
(1990a) 7242 In] SE aa a Be SRT PEM PAR. AP Re EM 
化 理论 应 用 于 这 类 神 经 网 络 ， 以 提 启 对 新 数据 的 汉化 能 力 ， 
Cover E FER UEFA ETA RO PoE (Cover, 1965): 
。 Schiafli 定理 或 函数 计数 定理 : 对 m 维 欧 几 里 德 空间 上 的 NW 个 处 于 一 般 位 置 的 向 量 
进行 二 分 ， 可 得 到 的 齐 次 线性 可 分 的 二 分 方式 的 数目 等 于 
CON,m,) = 2 Ma | 
如 用 每 一 个 含有 m TPAD m 个 的 各 量子 集 都 是 线性 独立 的 ， 就 说 m 维 Euclid 2 
间 上 的 集合 时 = jz;|……, 处 于 一 般 位 置 。 
* SKA RRA PARA EE: 一 个 随机 二 分 是 下 分 的 概率 (在 愉 的 条 件 下 ) 等 于 
沈 的 一 个 特定 二 分 (所 有 的 个 向 量 都 属于 一 类 ) 的 非 条 件 概率 。 

PRISM TT SX cE HEY Camer on (1960)、Joseph{1960) 和 Winder{1961) 以 不 同 的 形式 独立 证 明 ， 
并 应 用 于 特定 的 感知 规 配 置 ( 即 线 性 疯 值 单元 )。 在 Cover(1968) 中 这 个 定理 还 被 用 于 根 
Se PTA A De A a Te SS RS RE. EA PE N1 + lop N), HEP N Æ 
WASARA E. 
Foose AR ae AeA - 输出 映射 的 另 一 种 正则 化 方法 是 通过 使 用 Bayes 插值 理论 ; 详细 
了 解 这 方面 的 资料 请 参看 文献 MacKay(1992a,b) 和 Neal(1995) 。 
正则 化 理论 的 创立 主要 归功 于 Tikhonov{ 1963}. Phillips (1962) tH BY 2 BGR ot AB a E 
论 。 因 此 有 时 我 们 也 称 这 一 理论 为 Tikhonovy-Phillips 正则 化 。 
在 保险 统计 文献 中 一 种 止 则 化 形式 曾经 在 Whittaker(1923) 讨 论 过 ， 在 那里 考 虚 的 光 请 
过 程 窒 称 为 校准 (graduation) 或 者 调整 (adjustment)。 
以 韦 的 形式 讨论 正则 化 理论 ， 可 以 参考 Tikhonov and Arsenin (1977), Mozorov( 1993) 及 
Kirch{ 1996 >} 。 
pa aX 23 E ABE Se Hilbert 在 对 一 类 积分 方程 所 做 的 基本 研究 的 结果 中 提 册 的 。 当 
Fredholm 积分 的 创始 入 Fredholm 用 本 质 为 代数 的 语言 提出 问题 时 ，Hilbert 意识 到 这 个 问 
题 与 多 维 欧 儿 里 德 空 间 上 的 二 阶 曲面 的 解析 几何 理论 有 着 紧密 的 联系 (Lanczos，1964) 。 
王 范 空间 是 一 个 定义 了 实 值 函 数 ‖| x || WARPED, PASC x BK. E 
|x || 具有 如 下 性 质 : 

lx] > Ox +0), | ol =0 

Fexl| =la@l- xl Ce = 7%), iixe+yll < xi + iyi 

Tee x || 的 意义 是 向 量 ee. 
严格 说 来 ,我们 要 求人 员 届 产生 数据 的 函数 f(x) 属 于 具有 Dirac delta] BRAK S RAE RR 
形式 的 再 生 核 Hilbert 空间 (reproducing kernel Hilbert space, RKHS) (Tapia and Thompson, 
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1978)， 这 样 做 是 内 为 我 们 要 求 Dirac delta 广义 函数 8 为 递减 的 、 无 限 连 续 可 徽 的 图 数 ， 
EO X PRA Schwarz 埋 论 的 经 典 测试 函数 空间 3 共有 有 限 的 D- Pe, He 

H, = JEF: | Dll < wi 
一 般 说 来 ， 当 提 到 Hilbert 空间 时 ， 工 程 师 们 总 足 只 想到 L, 空间 ， 可 能 因为 L 空间 与 
任何 Hilbert 空间 同 构 。 但 是 范 数 才 是 Hilber SH REBATE, ASA RE 
义 下 的 同 构 ) 要 比 简单 的 加 性 同 构 重 要 得 多 ( Kailath,1974)。RKHS 理论 说 明 除 了 L 空 
ast, ABUSE ARM (KEIRA A Hilben 空间 。 关 于 RKHS 的 指导 性 综述 ， 参 看 


Kailath( 1971) . 
[有 | 内 积 空 间 是 一 个 线性 向 量 空间 ， 空 间 中 的 问 量 下 和 YY 的 内 积 用 (fu,y) 表 示 ， 满 足 如 下 性 
质 : 


(u,v) = (v,u},(au,v) = alu, v) ,ta = WE), 

(u+ vy, w) = (u,w) + (v.w),(u,u) > Olu 0) 
WRT A B28 Payot Bg A Cauchy 序列 都 按 范 数 收 化 于 光 中 的 一 个 点 ， 就 说 该 内 
积 空 间 是 完备 的 ， 并 且 称 其 为 Hilbert 空间 。 向 量 序列 |x, :为 Cauchy 序列 是 指 如 虹 对 于 
每 一 个 e>0， 痢 存在 一 个 数 M, UXT (m,n) > MA Il x, -x, | <e 

[9] 在 Girosi et al.(1995) 中 ， 给 出 得 到 了 式 (5.55) 的 不 同方 法 ; 该 方法 直接 将 正则 化 项 只 ， 
(FAAS F(x) 的 光滑 性 联系 起 米 。 
光滑 性 可 看 作 冰 数据 萝 性 的 度量 。 特 别 地 ， 如 果 某 一 中 数 与 男 一 限 数 相 比 具有 较 小 的 
振 萝 性， 我们 就 说 这 一 阔 数 比 男 一 如 数 光 消 。 换 和 句 话 说 ， 一 个 阻 数 越 光 消 ， 它 所 会 的 
噩 频 分 量 就 起 小 。 考 虑 交 评 性 的 这 个 度量 ， 令 Fls) A Fa RZE Fourier SH, s # 
NPCS RES. S ASR PIERS, 5 isl 趋向 于 无 穷 时 这 个 国 数 趋 向 于 零 ， 
即 1 如 (s) 半 示 一 个 “高通 滤 波 避 的 作用 。 那 么 ， 根 据 Cirosi et al.(1995)， 我 们 可 专用 
— FG FEZ A E FE 

| F(s) |? 


eee Sla Ht{s) i 
其 中 m fe x AES, AIE Fourier 理论 中 的 Parseval EM, XPS PE OLS 
(9) 的 输出 功率 的 一 种 度量 。 这 样 ， 将 正则 化 问题 映射 到 Fourier 领域 并 且 利 用 Fourier 
变换 的 性 质 ， 我 们 就 可 以 得 到 式 (5.55) 所 示 的 解 : 
(10) 线性 微分 算 子 的 最 一 般 的 形式 为 


D = PCy M2 Lm) 





TOCE CEEE 
HP x, Er Xm 是 问 量 X 的 分 量 ，p4xly a, Tm ) 是 某 个 关于 这 些 分 量 的 函数 
FT DEHAT (More and Feshback ,1953 ) 


a i an - 
10 DN gam PT ay eat be eB =o 


L11 Ay PAG Ae TAS MRA, 我 们 先 考虑 在 Wahba(1990) 中 的 一 个 岭 回 
ja eÆ (ridge regression problem) ; 


+O +k =A 


y= A+ E (1) 


ww ai bbt.com TAAWAOAA 





ee el ol a 


fF ig KR at HT A 223 


|12] 


[13] 


[14 | 


其 中 甘 是 一 个 NxN BBA, Beebe Rasa, HRP ARRAS T 
oT, Xf Xi ay SHARAD 

X = UDV’ 
AP U Al V IEE, DEHA. > 

y= U'y, B- Ve, -Ue 

我 们 可 以 用 如 和 将 式 (1) 转 变 为 

y = DBic (2) 
选择 对 角 和 矩阵 D( 注 意 不 要 与 微分 算 子 混淆 ) 使 其 奇异 值 成 对 出 现 。 这 样 就 有 一 个 正 交 
EE W, E WDW” BREE; H 


Ty ET yL] 
hy | thy Gn _2 

ÀA =- WDW' = 
= = f flys y_i yg 
ay as Ay 


它 的 对 角 线 元 之 为 常数 。 令 
z= Wy, Y= Wh, €= We 

MEHA 

z= AY+E (3) 
HAER DA AE RAH (maximally uneoupled) 行 ， 而 轮换 矩阵 A BO“ RAM 
>” (maximally coupled) 45 . 
PEAR FARES, EMP ARE ALMAS it TRAC ) Bras Fens aa fio] a RH 
式 (3) 所 示 的 最 大 移 合 形式 ， 然 后 对 z 进行 一 般 的 交叉 确认 ， 最 后 将 其 变换 为 原 坐 标 
系统 (Wabba., 1990 ). 
基于 1900 年 提出 的 报告 ， 在 Powell( 1992) 贡献 部 分 的 附录 申 ， 对 A.C. Brown 得 到 的 结 
果 给 了 了 高 度 评价 。 很 明显 在 1981 年 得 出 的 这 个 结果 说 明 一 个 RBE 网 络 可 以 实现 尾 
EP ROM IR 的 闭 域 上 到 B 的 映射 
Hartman et al.《1990) 讨 论 Gauss MARL AA CORY 民 " 紧 子 集 上 的 通 近 ， 在 那里 证 明 具 有 
E Bethe AA pa Gauss 霄 数 的 RBF 网 络 是 一 个 通用 到 近 器 。 然 而 ， 对 RBE 网 络 
的 通用 百 近 性 质 的 最 严格 的 证 明 在 Park and Sandberg t1991) F; 这 后 一 个 工作 在 
Hartman et al. 的 论文 发 表 前 就 已 经 完成 了 。 
让 为 民 " 上 的 一 个 有 界 区 域 ， 其 边界 为 rT。 考 虑 表示 在 人 = +T 上 具有 连续 梯度 
的 连续 实 值 函 数 的 集合 。 双 线性 形式 

| Ceradu : grade + uv)dx 

一 定 是 8 上 的 -个 内 积 。 出 这 个 内 积 产 生 的 范 数 完备 的 空间 了 称 为 Sobolev 空间 
(Debnath and Mikusifiski, 1990), Sobolev 竺 间 在 侦 徽 分 方程 理论 上 有 者 重要 的 作用 ， 因 
此 是 Hilbert 空间 的 个 重要 的 例子 。 


KF Parzen-Rosenblatt AY 4% BE Ah tT Ae AY By UE A the PE A HE HA, S&A Parzen (1962) 和 
Cacoullos (1966), 
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[15] Nadaraya-Watson HIT RETEST RPE RT Bee ER. ME A 
EÑ, ESA Ba Eee Fa AP; 参看 Hirqle( 1990) 及 Roussas( 1991 ) 
Mit ce. 


>] 


fz [a] A BY 
5.1 一 个 薄板 样 条 缆 数 可 以 写 威 


or) = ( 工 ) log( 于】 对 于 某 个 。> ORTER 


证 明 可 以 用 此 函数 作为 具有 平移 及 旋转 不 变性 的 Green 函数 ， 

5.2 在 5.8 节 中 给 出 的 对 图 5-6 所 示 的 RBF 网 络 的 权 值 向 量 w 的 值 集 合 ， 对 XOR 问题 
提出 一 纽 可 能 的 解 。 试 求 另 一 组 能 解雇 该 所 题 的 权 值 向 量 w 的 值 。 

5.3 在 5.8 节 中 我 们 给 出 了 用 具有 两 个 隐藏 单元 的 RBF 阅 络 解决 KOR 问题 的 解 。 在 这 
个 习 古 中 ， 我 们 考虑 用 四 个 隐藏 单元 精确 求解 该 问题 ， 每 个 径 向 基 眼 数 的 中 心 由 每 一 个 输入 
数据 点 决定 。 四 个 可 能 的 输入 模式 为 (0,0}、(0,1)、{1,1) 和 (1,0)， 它 们 表示 一 个 正方 形 环 
形 排序 的 四 个 角 。 

(a) 求 上 述 RBF 网 络 的 插值 矩阵 更 及 其 逆 再 ”。 

(b) 计 算 该 网 络 的 输出 屋 的 线性 权 值 。 

5.4 Gauss RALEA HB ARIRE RA. AH Gauss 函数 的 这 个 性 质证 明定 
MAB IG Gauss 分 布 的 Green 图 数 可 分 解 成 


G(x,t) = T] Glat) 


其 中 X; All t, 是 m x 1 SER x 和 + 的 第 ; 个 分 量 。 
正则 化 网 络 
5.5 考虑 代价 证 明 


€(F") = Dla. - PGC Il x; -tl )] +4ad DF" ||? 
EHAE ET AN 


F* (x) = 2a wG Ex- t l) 
利用 Fèchet ftar, WEH H 
(G'G + AG,)w = G'd 
Bt, ROZA ) 最 小 ， 其 中 N x m HERE G, m xm EER G, m x 1 向量 Ww 以 及 
Axim d, 分别 由 式 (5.72)、(5.75)、(5.73) 及 (5.46) 定 闵 。 
5.6 BEREX 


o = y 2 
(DD }y = Doe 1)" L 
mr k12 





其 中 v= ys 
a= 24 24% dad x. 
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mo X my KERF U LPO EES. B j PCR Au, zon. AERO”, Mm 
可 以 通过 相似 变换 将 其 分 解 成 如 下 形式 


有 
RH V ft— PIE E56, DAS AM, ESCAPE, BR Ce 
C= EV 


问题 相当 于 求 Green 图 数 Ctx, 人 0 满足 下 列 条 件 { 和 六 三 处 也 数 的 章 全 下) 
(DD), G(x, O = SCX -1t) 
HZH Fourier PRR T Gly ORRA, EHR A 
G(x,t) = expl- lix- tl) 
其 中 txl =x C Cx 
5.7 考虑 一 个 定 兴 刘 下 的 正则 化 项 : 


| IDFC la = Saf | DIFCO es 





其 中 Os - 

线性 微分 算 子 D 由 梯度 算 子 Y 和 拉 普 拉 斯 算 子 W 定义 如 下 : 
Dp = (下 

日 D+ -VY 

uE HA DFC(x) -Dv tpl) 


5.8 在 第 5.5 市 中 ， 我们 由 式 (5.65) 的 关系 导出 了 关于 F(X) 的 式 (5.66)。 在 这 个 问题 
中 我 们 希望 从 由 式 15. 的 ) 开 始 利 用 网 维 Fourier 变换 导出 式 (5.66)。 利 用 Green BR CORD HIE 
HE Fourier PRE GE X 


G(s) = Ja G(x)exp(- is”x) dx 
TREF, HEP isy -1，s 是 m 维 的 变换 变量 。 
5.9 考虑 趟 ($.95) 所 描述 的 非 线 性 回归 问题 ， 令 a, RE G AD 的 第 k TIR o 
那么 由 式 4,$8) 出 发 ， 证 明 回 归 国 数 起 吧 的 佑 讨 可 以 表示 为 
f(x) = Du (x, x 
其 中 y, 是 对 应 于 模型 输 人 x 的 输出 ， 且 
(x, x,) = SiGe |x- x, | Jaz, k=1,2, e, N 414 


Est GC il + || de Green RX 

5.10 FR BRED REM AIB UT ANF (Schumaker, 1981 )。 样 条 方法 的 基本 思想 如 
F: PRU KR AD RA ART PRR: 节点 可 以 是 固定 的 ， 这 样 静 近 胡 就 是 线性 
参数 化 的 ; 节点 也 可 以 是 可 变 的 ， 这 样 电 近 器 就 是 非 线 性 参数 化 的 。 在 这 两 种 情况 下 ， 在 每 
一 个 下 近 区 域 中 使 用 一 个 阶 数 最 高 为 n A, ARS Pe n- i RaRo 
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多 项 式样 条 函数 是 相对 光滑 函数 ， 容 易 在 计算 机 上 上 存储、 操作 及 计算 。 
在 实际 使 用 的 样 条 哨 数 中 ， 三 次 样 条 函数 可 能 是 应 用 最 广泛 的 ,一 个 一 维 输 入 的 二 次 样 
条 汞 数 的 代价 泛 归 定义 如 下 ; 


8D = 1 Din -AF + Af [O] a 


其 中 入 在 样 条 图 数 中 表示 光滑 性 参数 。 
(a) Seu oT ae A Ce ESA T EM 
(1) 两 个 相 续 的 x ASIA (2 ETE REM, 
(2) 记 Cx) 及 前 两 阶 导数 都 是 连续 的 ， 除 其 二 阶 导 数值 在 边界 点 为 零 外 。 
(因为 名 (但 有 惟一 最 小 值 ， 所 以 我 们 必须 
Ef + ag) = Bf) 
其 中 g 是 与 一 类 的 二 次 可 微 函 数 ，a 为 任意 实 值 常数 。 这 意味 着 多 (Ff + ag) 作 为 a 的 
AITE a=0 局 部 最 小 。 因 此 ， 证 明 


P(ER) ae = A By -Aela 
土 式 是 基于 三 次 梓 条 问题 的 Euler-Lagrange 方程 。 
1 UT ie Be 
5.11 it? Cuass 型 RBF 网 络 允 近 属 于 茶 一 Soboiey 空间 的 一 个 回归 函数 时 ， 式 (5.124) 
定义 溪 化 误差 的 上 界 。 利 用 这 个 土 界 推导 式 15.125) 的 公式 ， 和 该 式 表示 这 个 网 络 对 应 于 其- 一 
特定 大 小 的 训练 样本 的 最 佳 网 络 大 小 。 
核 估计 
5.12 假设 给 你 一 个 “无 噪声 "训练 集合 |F(x,)| 半 ,， 要 求 设计 一 个 神经 网 络 ， 能 推广 到 
由 于 爱 加 噪声 的 干扰 而 不 属于 训练 集合 的 那些 样本 点 二。 令 F(x) 表 示 该 网 络 所 实现 的 通 近 
函数 ， 它 使 期 望 平方 误差 


JP => DY fx) - FO PAGE 
成 为 最 小 ， 其 中 f.(&) 是 输入 空间 R 上 的 一 个 噪声 分 布 的 概率 密度 函数 。 证 明 这 个 最 小 平 
A ARBRE AT ( Webb , 1994) 


dfx ) f(x — X;) 


F(x) = 一 N 
DA- x) 
比较 这 个 居 计 器 和 Nadaraya-Watson 回归 个 计 器 。 
中 心 的 监督 选择 
5.13 ÆI 
l e 
é = > >; e, 


j=l 


其 中 č, ċ = d; 一 F° (x) = E | T | c) 
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es -— —, es es ee 





Á Te ———— m — a = ee 





式 中 的 自由 参数 为 线性 权 值 w,, Green PRAY D t, LOR bor zee a E =C, AR 
C, IERIE. SORIA ER RERA SR HE PP ed ee 


iV 
(a) $= = Beed -t lie) 


JE = 7 
(h) at = 2 1, 2466" | | X, - t, | CJA (x, - t) 
I j= 


d'E h 
(c) ag-1 二 一 W, ») eG’ i | x, — f; | E Q; 
23, 之 | 


其 中 人 人) 是 0 对 其 自 变量 的 导数 ， 上 是 

QO, = (x tt 
ATTER Pea R SHAN, BAS 3 章 的 注释 :2]。 
计算 机 实验 

5.14 在 本 题 中 ， 我 们 将 继续 5.13 节 中 的 计算 机 实验 ,在 设计 作为 二 值 模 式 分 类 器 的 
RBF 潮 络 时 讨论 随机 选取 中 心 的 情况 。 实 验 的 目的 是 为 了 证 明 以 这 种 方式 训练 的 网 络 的 汉化 
能 力 相 当 好 ， 

设计 的 阅 络 是 为 了 解决 5.13 节 中 的 二 值 模式 分 类 问题 ， 要 求 分 类 的 数据 是 从 一 个 具有 
两 个 等 概率 的 部 分 重 秋 二 维 Gauss 分 布 的 混合 模型 中 抽取 的 。 其 中 一 个 Gauss 分 布 的 均值 向 
县 为 10,0j ， 公 共 方 差 为 1; 另 一 个 Gaus 分 布 的 均值 向 量 为 [0,2]”， 公 共 方 差 为 4, 该 分 Be 
类 的 决策 规则 为 “选择 具有 最 大 际 数 输出 的 类 ”。 

a) 随机 选取 m = 20 个 中 心 ， 在 正则 化 参数 分别 为 0，0.1，1，10，100 和 1000 的 情 
OL PIR. peed Ze bk EARS P 的 最 小 值 和 最 大 值 ， 为 了 计算 总 体 统计 量 ， 
对 每 一 个 总 体 利 用 50 个 独立 的 网 络 分 别 测试 ， 每 次 都 是 对 一 个 固定 的 具有 1000 个 模式 的 参 
考 集 合 进行 测试 。 

(hb 构造 按 (a) 所 述 配 置 计算 的 当 正则 化 参数 = 1 时 的 决策 边界 。 

(当中 心 数 mi = 0 时 {随机 选择 中 心 }， 重 复 {a) 的 计算 。 

( 山 根 据 上 结果 ， 讨 论 将 随机 选择 中 心 作为 RBF 网 络 设计 方法 的 优点 ， 以 及 当 淹 络 作为 模 
陈 分 类 器 时 正则 化 在 性 能 方面 所 起 的 作用 。 

(e) 将 所 得 结果 与 5.13 节 中 用 严格 插值 法 所 得 的 结果 进行 比较 。 特 草地 ， 确 定 随机 选择 
中 心 的 方法 对 正则 化 参数 嫩 不 敏感 。 

5,15 EFA ELN, TE 5.13 节 对 一 对 Gauss 分 布 类 进行 分 类 的 计算 机 实验 中 ， 由 于 用 
Gauss 12 Je) A ROEE A BY Gauss 类 条 件 分 布 ， 所 以 RBF 网 络 有 较 好 的 人 性能。 在 本 题 中 我 
们 将 用 计算 机 试验 研究 设计 一 个 严格 插值 的 Gauss 型 RBF P28. Gauss 分 布 为 明显 不 连续 的 
类 条 件 分 布 。 特 别 地 ， 考 虚 两 个 等 可 能 的 类 ,和 类 %, 的 分 布 : 

。 U(G,), FPG, 2 9, 是 一 个 半径 为 :=2.34、 中 心 在 x =[ -2,30]" 的 加 

© UE), HPE c RUB — PAU x. ARA r= w 2r 的 正方 彤 区 域 

这 里 UCR PE OCR 上 的 饼 名 分布。 这 些 参 数 的 选取 使 得 类 %, 的 决策 区 域 与 


5.13 WFH Gauss 分 布 情况 时 的 决策 区 域 相 同 。 研 究 使 用 正则 化 作为 一 种 手段 ， 提 总 利 儿 严 
PS TH {HAY Gauss 型 RBE 网 络 的 分 类 性 能 。 317 
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6.1 简介 


ERIR, RNR ARAVA S RRA. TS, RT ETB 
Rare Hs, HO lo) RRR. TC RHEE Re Ee A A a Fae BE 
在 这 一 章 ， 我 们 将 讨论 另 一 种 通用 的 前 馈 网 络 的 类 型 ， 称 为 支持 向 量 机 { support vector 
machine, SVM), HY Vapnik 首先 提出 {Boser, Guyon, and Vapnik, 1992; Cortes and Vapnik, 1995; 
Vapnik, 1995, 1998). RS ERRAR R ARE lo] Sk BER, OR] ALE A RS AE 
线性 回归 。 

当然 ， 支 持 向 量 机 是 一 种 线性 机 器 ， 有 一 些 很 好 的 特性 。 为 了 解释 它 怎 样 工作， 从 模式 
分 关中 出 现 的 可 分 模式 的 情况 开始 可 能 是 最 容易 的 。 在 此 背景 下 ， 支 持 向 量 机 的 主要 惠 想 是 
建立 一 个 超 平面 作为 决策 曲面 ， 使 得 正 例 和 反例 之 间 的 隔离 边缘 被 最 大 化 。 通 过 使 用 在 第 2 
章 中 讨论 过 的 基于 统计 学 习 理 论 的 原理 性 方法 ， 机 器 获得 了 这 个 想 要 的 特性 。 更 精确 地 说 ， 
文 持 斗 基 机 是 结构 风险 最 小 化 方法 的 近似 实现 。 这 个 归纳 原理 是 基于 这 样 的 事实 ， 学 习 机 器 
在 测试 数据 上 的 误差 率 ( 即 泛 化 误差 率 ) 以 训练 误差 率 和 一 个 依赖 于 VC 维 数 (Vapnik- 
Chervonenkis dimension) IM ARAA; 在 可 分 模式 情况 下 ， 支 持 向 量 机 对 于 前 一 项 的 值 为 
F, 并 且 使 第 二 项 最 小 人 化。 因此， 尽管 它 不 利用 问题 的 领域 知识 ， 在 模式 分 类 问题 上 支持 向 
量 机 能 提供 好 的 罕 化 性 能 。 这 个 属性 是 支持 向 量 机 特有 的 。 

Ze SOF x, 和 输入 空间 抽取 的 向 量 x 之 间 的 内 积 核 这 一 个 概念 是 构造 支持 向 量 机 
学 习 算 法 的 关键 。 文 持 问 量 是 由 算法 从 训练 数据 中 抽取 的 小 的 子 集 构成 。 依 赖 于 这 个 内 积 核 
的 不 同 产 生 方 式 ， 可 能 建立 不 同 的 学 习 机 妖 ， 由 它们 自己 的 非 线 性 决策 曲面 所 表征 。 尤 其 
十， 可 以 使 用 支持 同 量 学 习 算法 来 构建 学 习 机 棵 中 的 下 面 二 种 类 型 ， 

© 多 项 式 学 习 机 舌 

© 42 |r) FER Sx PES 

* MERIA A Pe a ) 

也 就 是 说 ， 对 于 这 些 前 馈 网 络 中 的 每 一 个 ， 利 用 给 定 的 训练 数据 集 我 们 可 以 使 用 支持 向 量 学 
习 算 法 来 实现 学 习 过 程 ， 上 自动 诀 定 妻 求 隐藏 单 元 的 数目 。 用 另 一 种 方式 陈述 : 由 于 反 向 传播 
算法 专门 为 名 练 乞 层 感知 央 设 计 ， 所 以 支持 回 量 学 习 算 法 是 一 种 更 一 般 化 的 算法 ， 因 为 它 有 
FY 22 AY AW AW 


本 章 的 组 织 


本 音 的 主体 组 织 为 三 部 分 。 在 第 一 部 分 中 ， 我 们 描述 支持 向 量 机 背后 的 基本 和 思想。 特别 
地 ， 在 6.2 习 讨 论 对 于 简单 的 谎 性 可 分 模式 情 帝 下 最 优 超 平面 的 构建 。 接 着 在 6.3 节 考 虑 更 
旭 来 的 不 可 分 模式 的 情况 。 

按照 这 样 做 ， 我 们 为 本 章 的 第 二 部 分 铺 平 道路 ， 这 部 分 给 出 支持 向 量 机 解决 模式 识别 任 
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务 的 详细 讨论 。 这 个 下 作 在 6.4 节 完成 。 在 第 6.5 PHS XOR 问题 ， 说 明 支 持 向 量 机 的 构 
造 . 在 第 6.6 节 再 次 谈 及 在 第 4，5 章 中 研究 这 的 模式 分 类 的 计算 机 实验 ， 从 而 提供 交 持 同 
量 机 与 由 上 及 向 传播 算法 训练 的 多 层 感 划 器 及 标准 的 径 而 基 东 数 网 络 之 间 的 一 个 比较 。 

本 章 的 景 后 一 部 分 处 至 非 线 性 回归 问题 。 在 6.7 节 撒 述 一 个 损失 函数 ， 它 非常 和 通 人 台 这 个 
问题 。 然 后 在 第 6.8 节 讨 论 用 于 非 线 性 回归 的 支持 向 量 机 的 构造 。 

在 第 6.9 节 以 一 些 最 终 评述 结束 本 章 . 


6.2 线性 可 分 模式 的 最 优 超 平面 


考虑 训 练 祥 本 | (x,, d Oo HP x 是 输入 模式 的 第 i 个 例子 ，d; 是 对 应 的 期 望 啊 记 
(目标 输出 )。 开 始 我 们 假定 由 子 集 d = + 1 代表 的 模式 (类 ) 和 di = - 工 代表 的 模式 是 "线性 
可 分 的 "。 用 于 分 离 的 超 平面 形式 的 决策 曲面 方程 是 


wx+b=0 (6.1) 
其 让 是 输入 向 量 ， wom, b RR. 这样 我 们 可 以 写 威 
wx +420, 对 于 人 =+1 wx, +5<0, OF ad, --1 (6.2) 


TX EIET RAR AR PE OY Sp RE , DS EY i A) eS Ee LJ EA 
AG; 在 第 6.3 节 将 放宽 这 个 假定 。 | 

对 于 一 个 给 定 的 权 值 向量 w AWE b, 
由 方程 (6.1) 定 义 的 起 平面 和 最 近 的 数据 总 之 
A ATI RE BRAS Bie, Ap Fem, MAF 
向 量 机 的 目标 是 找到 一 个 特殊 的 超 平 面 ， 对 
于 这 个 超 平 面 分 离 边缘 p 最 大 。 在 这 个 条 件 
下 , 决策 曲面 称 为 最 优 超 平面 (optimal == g 
hyperplane). 图 6-1 给 出 的 是 二 维和 输入 空间 中 <n 7 |o © 
最 优 超 平面 的 几何 结构 。 F | 

设 Alb, 分 别 表 示 权 值 向 量 和 情 置 的 
最 优 值 。 相 应 地 ， 在 输入 空间 里 表示 多 维 线 





性 决策 面 的 最 优 超 平 面 由 
WxX+b,=0 (6.3) 图 6-1 线性 可 分 模式 最 优 超 平 面 的 思想 示意 图 
定义 ， 它 是 方程 (6.1) 的 改写 。 判 别 函 数 
a(x) = wx + b, (6.4) 


给 出 从 x 到 最 林 超 平面 的 距离 的 一 种 代数 度量 (Duda and Har,1973)。 看 出 这 一 点 的 最 简单 方 
法 或 许 是 将 x 表达 为 

其 中 , x, 是 x 在 最 优 超 平面 上 的 常规 投影 ，r 是 期 望 的 代数 距离 ， 如 果 x 在 最 优 超 平面 的 正 
面 ，r 是正 值 ， 相 反 如 果 x 在 最 优 超 平 面 的 负 而 ，r 是 负 值 。 因为 由 定义 知 g(x,)=0， 由 此 
推出 


g(x) = wx+b, = 了 |w。 | 
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或 者 r= en 
iw, | 
尤其 ， 从 原点 ( 即 x=0) 到 最 优 超 平面 的 距离 由 b,/ || w, 上 i 给 定 。 如 果 b >0， 原 点 在 最 优 超 
平面 的 正面 ;如 果 5。 <0, 原 点 在 负面 ;如 果 5, = 0, 最 优 超 平面 通过 康 点 。 这 些 代数 结果 
的 几何 解释 在 图 6-2 中 给 出 。 rz 
MERE FA EREET = | (x,, dD) 
找到 最 优 超 平面 的 参数 w, Ald, WEE 6-2 描绘 
结果 。 可 以 看 出 一 对 (w。 ,加 ) 一 定 满足 条 件 : 
wx. +b, >l, WF d =+l 
Wx, + b, <- 1, F d, =-1 
注意 如 果 式 (6.2) 成 立 ， 即 模式 是 线性 可 分 的 ， 总 可 
以 重新 调整 w, Ab, 的 值 使 得 式 (6.6) 成 立 :这 种 重 
新 调整 并 不 改变 式 (6.3): | 
满足 式 (6.6) 第 --- 行 或 第 二 行 等 号 情况 的 特殊 数 0 x 
据点 (x, ,不 ) 称 为 支持 向 量 ,“ 支 持 向 量 机 "因此 得 名 。 
这 些 向 量 在 这 类 学 习 机 器 的 运行 中 起 着 主导 作用 。 用 
概念 性 的 术语 ， 支 持 向 量 是 那些 最 靠近 决策 商 的 数据 。 。 “5 ARNOLD SOP i 





(6.5) 


(6.6) 





点 ， 这 样 这 些 数据 点 是 最 难 分 类 的 。 因 此 ， 它 们 和 决 eee renee 
RAM ROE BAX. 
考虑 一 个 支持 向 量 SORA dh +1, REZ, RNS 
g(x?) = wx ghb, = 和 二] Wd’ -Fl (6.7) 


从 式 (6.5) 知 愉 支 持 向 量 x ”到 最 优 超 平面 的 代数 距离 是 


| (a) 
(4) > sal 
n a(x’) i [w | (6.8) 


Iw. | E = æ gf) i 
其 中 加 号 表示 x'* 在 最 优越 平面 的 正面 ， 而 减 号 表示 x” 在 最 优 超 平面 的 负面 。 让 p 表示 在 
两 个 类 之 间 的 分 离 边 毕 的 最 优 值 ， 共 中 这 两 个 类 构成 训练 集合 3。 因此 从 式 (5.8) 得 到 


0 = 2r 一 | = | (6.9) 


式 {6.9) 说 明 ， 最 大 北 两 个 类 之 间 的 分 离 边 绿 等 价 于 最 小 化 权 值 问 量 w ERLEEN, 
总 之 ， 由 式 (6,3) 定 六 的 最 优 超 平面 是 惟一 的 ， 意 味 着 最 优 权 值 向 量 w, 提供 正 反 例 之 间 
的 最 大 可 能 的 分 离 ，。 这 个 优化 条 忻 是 通过 最 小 化 权 值 向 量 w 的 欧 儿 里 德 范 数 获得 的 。 


用 于 寻找 最 优 超 平面 的 二 次 最 优化 


我 们 的 目标 是 发 展 一 个 计算 上 有 效 的 过 程 ， 遂 过 使 用 训练 样本 了 = ix, d i RaR 
fie Fi, FFA EAR RIFE 
d.(w'x, + 5) = 1 MF i = 1,2, e, N (6.10) 
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IX ARRERA (6. ORTES AEE, EF w, Ew KR, 
我 们 必须 解决 的 约束 最 优 问 题 现 在 可 陈述 如 下 
ee i RAPA L(x dU, RRA Ew RAE EMRE RR CNR TMH 
束 条 件 
d,(w'x, + 6) = 1 Mi = 1,2, N 
AB SMS we MER a ee 
Piw) = TY 


这 里 包含 比 列 因 子 1/2 是 为 了 表示 方便 。 这 个 约束 优化 问题 称 为 原 问题 (primal problem), È 
© 代价 函数 Dw E w AS se!” 
© 约束 条 件 关 于 w 是 线性 的 。 

因此 ， 我 们 可 以 使 用 Lagrange 来 子 方法 解决 约束 最 优 问题 (Berisekas, 1995). 
首先 ， 我 们 建立 Lagrange 函数 


Jw, b,a) = SWW - > ol diw x, + 6) - 11] (6.11) 


其 中 辅助 非 负 变量 o, 称 作 Lagrange 来 子 。 约束 最 优 问 题 的 解 出 Lagrange PRX J Cw, b,a) RE 
ARE, UPR BOR w A b 必定 最 小 化 ， 对 a 必定 最 大 化 。J(w,5,a} 对 Ww 和 4 求 微分 并 置 结 
mae TS, 我们 得 到 下 面 两 个 最 化 化 条 件 : 


HAF 1; sw, ba) =) 
SAF 2: PJW, boa) = 
应 用 最 优化 条 件 1 到 式 (6.11) 的 Lagrange RAC, BGA EREHE ) 


W = > 04, x, (6.12) 
应 用 最 优 条 件 2 到 式 (6.11) 的 Lagrange 函数 ， 得 到 
Sad, = (} (6.13) 


FAE WwW 定义 为 入 个 训练 样本 的 展开 。 但 是 注意 ， 尽 管 由 于 Lagrange 函数 的 凸 性 这 个 解 是 
惟一 的 ,但 并 不 能 认为 Lagrange 系数 m 亦 是 惟一 的 。 

在 这 里 则 样 重要 的 是 注意 ， 在 获 点 对 每 一 个 Lagrange RF a,， 乘 子 与 它 相 应 的 约 东 的 乘 

af d;Cw'x, + 6) -—1] =0 XIF i= 1,2,7°,N (6.14) 

此 ， 只 有 这 些 精确 满足 式 (6.14) 的 乘 子 才能 假定 非 过 和 值 。 这 个 性 质 是 从 最 优化 理论 的 
Kuhn-Tucker 杀人 忻 得 出 的 (Fletcher, 1987 ; Berisekas, 1995) . 

焉 像 早 先 提 到 的 ， 原 问题 是 处 理 凸 代价 函数 和 线性 约 东 。 给 定 这 样 一 个 约束 最 优化 问 
i, VIREO — SI, BRAS AR) AA (dual problem)。 这 第 二 个 问题 与 原 问 题 育 同样 的 最 
wE, {EH Lagrange 乘 子 提供 最 优 解 。 特 别 地 ， 可 以 陈述 对 避 定 理 如 下 (Bertsekas , 1995); 
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(AMRRM BARI, Sw A aR, A AMIR Pie feel AY 
(b) 为 了 使 得 w, 为 原 问 题 的 一 个 最 优 解 和 a, 为 对 偶 问 题 的 -- 个 最 优 解 的 充分 必要 条 件 


是 w, 对 原 间 题 是 可 行 的 ， 并 日 
wo) = J¢w,,5,,0,) = minflw,b, ,0,) 
AY YU AP eg VD a AT TT] a) BEE RITE EDU ITA (6. nn F; 
Iw, b,a) = FW w- Dadw'x -b Dad Ma (6.15) 
按照 式 (6,13) 最 优 条 件 的 性 质 ， 式 (6. DARET MAE. WEAR. 12) 我 们 有 


Ww Ww = Dadw’ x, -» Yeaddx’x 
AY, Appear a Jw, b, 2) = Qe), 可 以 改写 武 (6 IS) 为 
O(a) = Se -4È Yaad’ x, (6.16) 
其 中 a, 基 非 负 的 。 
现在 可 以 陈述 对 偶 问 题 : 


HE DARE], dOl, [eee +f eH 


O(a) = So, -4 X Meadax’x 
的 Lagrange EF ia lii, BLAREH 


(1) Said, = 0 

(Za, =O 对 于 = AN 

注意 ， 对 惕 问题 完全 是 根据 训 红 数据 来 表达 的 。 而 且 ， 郴 数 OC) MR ALI IK MF 
入 模式 点 积 的 集合 ix x boy ere 

确定 用 oo, ,表示 的 最 优 Lagrange 来 子 后 ， 可 以 用 式 !16.12) 计 算 最 优 权 值 问 量 w ， 并 写 
成 


- So, d X; (6.17) 


为 了 计算 最 优 偏 置 b, 可 以 使 用 获得 的 w, 并 对 于 一 个 止 的 到 持 同 量 利用 式 (6.7)， 这 样 
有 有 


b, = i- wg” wT d” = 1 (6.18) [324] 


ae AS FD SET PE 


从 第 2 草 给 出 的 统计 学 习 理 论 ， 回 忆 和 学 习 机 器 的 VC AEDS Re Te UT Oe Be AY i 2 eT 
FAIA TA. PNAS HE m 维 空 间 分 离 超 平面 集 的 VC 维 为 m+ 1。 然 而， 为 了 应 用 第 2 草 
描述 的 结构 风险 最 小 化 的 方法 ,我们 光 要 建立 VC 维 数 变 化 的 分 离 超 平 面 集合 ， 使 得 经 验 风 
险 ( 即 训练 分 类 误差 ) 和 VC 维 数 同 时 最 小 化 。 在 文 皖 问 量 机 里 ,通过 约束 权 值 问 量 Ww 的 
Euclid 范 数 对 分 本 超 平面 集合 施加 一 个 第 检 。 特 别 地 ， 我 们 可 以 陈述 如 下 定理 (Vapnik, 1995, 
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1998): 
& D BRAG AN EX, ky 的 最 小 球 的 直径 。 由 方程 
w+ b, = 0 
描述 的 最 优 超 平 面 集合 ， 有 一 个 WC RHA LRH 
ho mind Fle ] (6.19) 
其 中 项 符号 [| | 表示 大 于 等 于 所 包含 的 数值 的 最 小 整数 ，p ES 2/ | w, | 的 分 离 边缘 ，mn 
EMA E lB] AER 
AERE UREA. BELA ae E ise HEE Ta VC AE CBS ete), ERIE 
Ko, ESRMA SA HZEN m TK, 
TERE, RINA-MaTS ES BF EH te EAE : 


S, = iw x b: lwll? < «|, k = 1,2," (6,20) 
由 VC 维 数 在 式 (6.19) 定 义 的 上 界 ， 在 式 (6.20) 中 描述 的 说 套 结 枸 可 以 通过 分 离 边 绿 改 写 
为 等 价 形式 
2 
$, = | oT lio = a, k = 1,2, (6.21) 





其 中 a, Ale, 部 是 常数 。 

从 第 2 章 我 们 也 知道 ， 为 了 得 到 较 好 的 泛 化 能 力 应 该 选择 一 个 特殊 的 结构 ， 根 据 结 构 反 
险 最 小 化 原则 ， 它 应 有 最 小 的 VC 维 数 和 训练 误差。 从 趟 16,.19) 和 (6.21) 中 我 们 发 现 通过 司 
用 最 优 趣 平面 ( 即 利 用 具有 最 天 分 离 边 缘 p 的 分 离 超 平面 )， 这 个 要 求 可 以 被 满足 。 等 价 地 ， 
根据 式 46.9) 应 该 使 用 具有 最 小 欧 几 里 德 范 数 的 最 优 权 值 向 量 Ww, 。 因 此 ， 最 优 超 平面 作为 线 
性 可 分 模式 决策 面 的 选择 ， 不 仅 直 观 上 满足 而 旦 完全 符合 支持 向 量 机 的 结构 风险 最 小 化 的 原 
HE 


6.3 不 可 分 模式 的 最 优 超 平面 


到 目前 为 止 讨 论 集中 在 线性 可 分 模式 的 情况 。 在 这 一 节 我 们 考虑 更 难 的 不 可 分 模式 的 情 
沈 。 给 滤 这 样 一 组 训练 数据 ， 不 可 能 建立 一 个 不 具有 分 类 误差 的 分 离 超 平面 ,然而 ， 我们 希 
望 找到 一 个 最 优 超 平面 ， 它 对 整个 训练 集合 平均 的 分 类 误差 的 概率 达到 最 小 。 

在 次 之 则 的 分 离 边缘 称 为 是 软 的 ， 如 果 数 据点 (xi 也) 不 满足 下 面 的 条 件 ( 见 式 16.10) ): 

diw x + b) e+ 1, ee eee 

ASR PF AA RS 

。 数据 上 (x,,d,) 落 在 分 离 区 域 之 内 ， 但 在 决策 面 正确 的 一 侧 ， 如 图 6-3a 所 示 。 

- 数据 点 (x,, d) 落 在 决策 面 错误 的 一 十， 如 图 6- 3b 所 示 。 
tE., FETAL 1 我 们 有 正确 的 分 类 ， 但 在 情况 2 分 类 是 错误 的 。 

为 了 建立 不 可 分 离 数 据点 正式 处 理 的 阶段 ， 我 们 引信 一 组 新 的 非 负 标量 变量 1 | 性 ,到 分 
ey AC RRR Ae, aA 
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图 6-3 
4) 数 据点 x, ORT RE ) 落 在 分 离 区 城之内 ， 阳 在 决策 而 正确 的 一 全 326, 
b) 数 据点 x, OMT ICE, i ER RHR A — 10 


d(w'x + f4)21-&, fe 1,2,0, N (6.22) 
XE e 称 为 松弛 变量 (alaek variable); 它们 度量 一 个 数据 点 对 模式 可 分 的 理想 条 件 的 偏离 程 
度 。 对 于 0g& 和 1， 数据 点 落 人 分 离 区域 的 内 部 ， 但 是 在 决策 面 的 正确 一 侧 ， 如 图 6-3a 所 
示 。 对 于 所 > 1， 数 据点 落 到 分 离 超 平面 的 错误 一 侧 ， 如 图 6-3h 所 示 。 支 持 向 量 是 那些 精确 
满足 式 (6.22) 的 特殊 数据 点 ， 即 使 & > 0。 注意 ， 如 果 一 个 & >0 对 应 的 样本 被 遗弃 在 训练 集 
外 ， 涩 策 面 就 要 改变 。 因 此 ， 支 持 向 量 的 定义 对 线性 可 分 和 不 可 分 的 情况 都 是 相同 的 。 
我 们 的 目标 是 找到 分 离 超 平面 使 其 在 训练 集 上 的 平均 错误 分 类 的 误差 最 小 。 为 了 达到 这 
一 点 ， 通 过 对 权 伍 阿 量 w Ae th iz A 
DE) = Se, _ 
泛 函 满 足 式 (6.22) 的 约束 条 件 和 对 || wl? 的 限制 。 函 数 FS) 是 一 个 指标 函数 ， 由 
在 上 sn0 
ig) = 人 芋 上 > 站 
EM, KEN, OHH w 的 最 小 化 是 非 凸 的 最 优化 问题 ， 它 是 NP - San”, 
为 了 使 最 优化 问题 数学 上 易 解 。 我 们 写 出 


ale) = Wg 
EESE OG). 而且， 通过 形成 泛 函 对 权 值 向 量 w 的 最 小 化 公式 简化 计算 ， 即 
b(w,t) = bww +o, (6.23) 


如 前 一 样 ， 最 小 化 式 (6.23) 中 第 1 项 与 最 小 化 支持 向 量 机 的 VC MOE, BPH IWATE, 
它 是 测试 错误 数目 的 一 个 上 界 。 在 式 (6.23) 中 代价 函数 的 公式 与 结构 风险 最 小 化 原则 完全 易 


ran 
Hoo 


参数 5 控制 机 器 的 复杂 性 和 不 可 分 离 点 数 之 间 的 平衡 这样 它 也 可 以 被 看 作 是 一 个 正 
出 化 "参数 的 形式 。 人 参数 5 由 使 用 者 选 定 。 这 可 由 下 面 两 种 方法 之 一 完成 
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© 做 数 C 由 实验 雇 定 ， 通 过 标准 使 用 圳 练 / 确 认 ) 测 试 集 ， 它 是 重 采 样 的 粗略 展 民 。 

人 它 委 分 煌 决定 ， 从 式 (6.19) 信 计 VC 维 数 和 使 用 基于 YC AER db iz (Ce BEF 。 

ATER TOL, Tre OCw ST wie | 求 最 优化 ， 漠 足 式 (6.22) 播 述 的 约束 条 件 和 
E 宇 0。 这 样 做 ，wWw 的 范 数 平方 波 认 为 是 一 个 关于 不 可 分 离 点 的 联合 最 小 化 中 ~… 个 数量 项 ， 
而 不 是 作为 强加 在 关于 不 可 分 离 点 数量 的 最 小 化 上 的 一 个 约束 条 件 。 

对 网 团 陈 述 的 不 可 分 模式 的 最 优化 问题 ， 了 包括 线 性 可 分 模式 的 最 优化 问题 作为 它 的 一 种 
性 吻 情 况 。 其 性 地 ， 在 趟 (6.22) 和 式 (6.23) 中 对 所 有 的 i Et =0， 就 把 它们 化 得 为 相应 的 


7 线性 可 分 情 瞩 。 
我 们 现在 对 木 可 分 离 的 情况 的 原 问 题 叮 以 下 式 地 陈述 如 下 ， 
AERA d La PRS we BD 的 最 优 值 ,使 得 它们 满足 约束 条 
件 


da 对 于 站 = te, N 
E, > 0 对 所 有 的 i 
FLIRE whee! 最 小 化 代价 函数 


Piw, = JW W4 C Se 
HP, CARMA YH ERK, T 
使 用 Lagrange RTRA, DAR 6.2 节 所 描述 的 相似 方式 来 处 理 ， 我 们 可 以 得 到 不 可 分 
离 模 式 的 车 个 问题 的 表示 如 下 (参看 习题 6.3): 
HEI ERA d Oha FRAR AAA 


Y 


| ¥ 
Ola) = ya, -5 A Dy aadd y, 


Fu | fol 


的 Lagrange 来 了 ia oi, WAHR AA 


y 
(1) Sad, = 0, 
(20 sa g CE 对 于 ji = 1,2, N 
KY, C CRASSA HY LRG, 


和 注意， 松弛 变量 总 和 它们 的 Lagrange 乘 子 都 不 出 现在 对 偶 问 题 里 。 除 了 一 些 少许 的 但 很 重要 

的 老 别 外 ， 不 可 分 模式 的 对 偶 问 题 与 线性 可 分 模式 的 简单 情况 相似 。 在 两 种 情况 下 ， 最 大 化 

WAP ma Cio 是 柑 同 的 。 不 可 分 离 情况 与 可 分 离 情 况 的 不 局 在 于 限制 条 件 oa, =O Re 

Alsi? BORA Osa < C。 除 了 这 个 修改 ， 不 可 分 离 情 况 的 约束 最 优化 问题 和 权 值 向 量 w 和 

AE b 的 最 优 值 计算 过 程 与 线性 可 分 离 傅 况 的 一 样 。 还 要 注意 支持 向 量 和 以 前 的 定义 相同 . 
权 值 后 量 w 的 最 优 解 由 


Ns 
W, = Sae dX, (6.24) 


给 出 ， 其 中 M 是 支持 向 量 的 个 数 。 决 定 偏 置 最 优 值 所 使 用 的 方法 也 与 以 前 描述 的 过 程 相 
似 。 其 体 地 ，Kubn-Tucker 条 忻 被 定 闵 为 
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a, di{wx +6)-14+6] = 0, i= l,e, N (6,25) 
All mE, =0, i=1,2,°°,N (6.26) 


及 (6.25) 是 式 (6.14) 的 改写 ， 单 位 1 被 (1] -&,) 代 替 ,， 至 于 式 (6.26)，j 是 Tagrange HEF, 5| 
和信 它 的 目的 是 对 所 有 强制 松 继 变量 二 为 非 负 。 在 鞍点 对 于 原 问 题 的 Lagrange 国 数 对 松 张 变 
TE E 的 导数 的 值 为 零 ， 计算 这 个 值得 到 
ate, = CO (6.27) 

FRA IA (6.26) Mk (6.27), RNA 

Ł& =0, WR a eC (6.28) 
FTCA Ee eb, 如 下 ， 取 训练 集中 满足 0<a ,< C 的 任意 数据 点 (xz. ,也 ). 因此 
E =0， 并 对 式 (6.25) 使 用 那个 数据 点 。 然 而 ， 从 数值 的 角度 看 ， 采 用 从 训练 样本 中 所 有 这 
样 的 数据 点 得 到 的 b, 的 平均 值 更 好 (Burges, 1998)。 


6.4 怎样 建立 用 于 模式 识别 的 支持 向 量 机 


有 了 天 于 允 不 可 分 离 模式 怎样 找到 最 优 超 平 面 的 知识 ， 我 们 现在 正式 描述 建立 用 于 模 
A - 识 剂 尾 务 的 支持 向 量 机 。 

基本 上 ， 支 持 向 量 机 ”的 思想 建立 在 两 个 数学 运算 上 ， 现 概述 如 下 并 在 图 6-4 中 说 明 

1. 输入 回 量 到 操纵 特征 空间 的 非 线性 上 映射， 特征 空间 台 输 入 和 输出 部 是 际 城 的 。 

2. 构造 一 个 最 优 超 平 面 用 于 分 离 在 第 1 步 中 发 现 的 特征 。 

两 个 操作 的 基本 理由 在 下 面 解释 。 


中 全 


i) 


i i 
18 iii ; i z n 
it |. =: a i i = 
HRUE Sul hes Bnin 
feta eat aCe! nA Maa 
E 1 Em rip wh i =r | 


rr a. 
th = 
ie 
i | 
bikie Eg Baji 
j Caer = 





H ia l | w z Lia | -一 
= 和 a Be i iis =i 
= = = 





— bi : 
ree eet T PLI] ka — 
i i ig i i LEN z Tj 
-aH 二 = Ella 
ip = 





给 入 (数据 ) 空间 
图 6-4 从 输 信 空间 到 特征 空间 的 非 线性 贞 射 pt) 


操作 1 和 根据 第 5 章 中 讨论 的 关于 模式 可 分 性 的 Cover 定理 执行 。 考 不 由 非 线 性 可 分 模式 
构成 的 输入 空间 。Cover 定理 陈述 为 : 如 果 两 个 各 件 均 满足 ， 那 么 多 维 空间 能 变换 为 一 个 新 
的 特征 空间 ,使 得 在 特征 空间 中 模式 以 较 高 的 概率 为 线性 可 分 的 。 育 完 ， 变 换 是 非 线 性 的 ， 
其 次 ， 特 征 空间 的 维 数 是 足够 高 的 。 这 两 个 条 件 在 操作 1 PER, Rm, EE Cover 定理 设 
有 讨论 分 离 超 平面 的 最 优 性 。 只 有 使 用 一 个 最 优 分 离 超 平面 使 YC 维 数 达 到 最 小 和 获得 证 化 
能 力 。 

接着 要 说 明 的 是 第 2 个 操作 从 何 而 来 。 具 体 地 ， 操 作 2 利用 建立 最 忧 分 离 超 半 徊 的 思 
想 ， 它 根据 6.3 节 描述 的 理论 ， 但 是 有 一 个 根本 的 不 同 ; 现在 分 离 超 平 面 被 定义 为 从 特征 空 
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Te 4S Ho AS a) A EAR. ae A ea Ae. SEE, AP ie aE. 
VC 维 数理 论 上 的 结构 风险 最 小 化 的 原则 是 一 第 的 。 这 个 构造 与 内 积 核 的 求 值 有关。 


内 积 核 


令 久 表示 从 输入 空间 得 到 的 向 量 ， EER A mo Sig, (x) Hea AA T AAR E 
空间 的 一 个 非 线性 变换 的 集 台 : m 是 特征 空间 的 维 数 。 对 所 有 的 j, E p (x) 根 据 先 验 知 
识 定义 的 . 给 定 非 线性 变换 的 这 样 一 个 集合 ， 可 以 定 交 一 个 充当 决策 面 的 超 平 面 


Jwg +h =0 (6.29) 
HF i w o RRRS 间 连 接 到 输出 空间 的 线性 权 值 的 集合 ， b FEE. FNAL A 


Sinaia = 0 (6.30) 


其 中 假定 对 所 有 的 xX，qp LX) = 1， 所 以 wo ERRE 5。 式 16.30}) 定 义 了 一 个 决策 面 ， 这 个 决 
冬 面 在 特征 空间 根据 机 痪 的 线性 权 值 进行 计算 。 通 过 特征 空间 ，@ (x}) 表 示 提 供给 权 值 w 的 
WA. EHE 
M(x) = Rp a), s Ga Ox) ]’ (6.31) 
EP, HEXA 
(x) = l 对 有 所 有 的 x (6,32) 
KFE, et q(x) 表示 由 于 输入 向 量 x AES RS HR”, WI 6-4 所 示 。 那 么 ， 
利用 这 个 像 用 紧凑 的 形式 定 尽 决策 耐 : 
| w(x) = 0 (6.33) 
我 们 使 式 (6.12) 适 合 现在 涉及 特征 空间 的 情形 ， 在 特征 空间 中 现在 寻找 特征 的 “线性 "可 分 
性 ， 可 以 写成 


w= Ye d,p(x, ) (6.34) 

其 中 特征 向 量 g(x, ) 与 在 第 i 个 例子 里 输入 模式 x 相对 应 。 因 此 将 式 (6.34) 代 人 式 (6.33)， 
可 以 定 光 在 特征 空间 中 计算 的 癌 策 面 如 下: 

> ad, 9" (x, )9(x) =- 0 (6.35) 


项 p(x)p(x) 表 示 特 征 空间 中 由 第 i 个 例子 的 输入 模式 x, 和 输入 向 量 诱导 的 两 个 向 量 内 
积 。 这 样 我 们 可 以 引入 内 积 核 (inner-product kemel), E 上 (x, ) 表 示 并 且 定 义 为 


KK) = @ ola) = Dp pe (6.36) 
从 这 个 定义 ， 立即 看 出 内 积 核 是 自 变量 的 对 称 唱 雪 ， 表示 为 
K(x,x,) = K(x,,x) 对 所 有 的 (6.37) 


mE te. 我们 可 以 使 用 内 积 核 K(x,x, ) 在 特征 空间 中 建立 最 优 超 平面 ， 无 需 用 显 武 的 形 
二 考虑 特征 空间 自身 。 将 式 (6.36) 代 人 (6.35) 容 易 看 出 这 一 点 ， 此 时 最 优 超 平面 定义 为 
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ŘE, O e bl pa — 


fyi 
Sla d,K(x,x,) = 0 (6.38) 
1= 4 


Mercer 定理 


式 (6.36) 对 于 内 积 核 函 数 K(x, x, ) 的 展开 是 在 泛 孙 分析 中 出 现 的 Merer 定理 的 一 种 特殊 
情形 .这 个 定理 可 以 正式 表述 如 下 (Mercer, 1908; Courant and Hilbert , 1970): 


K(x,x ) 表 示 一 个 连续 的 对 称 核 ， 其 中 克 定 义 在 逆 区 间 acxxb,x Re, A K(x xT 
VA ah AR IP AY a 
Kine) = Dag. (p(X) (6.39) 
其 中 所 有 的 入 Hea. A 了 保证 这 个 展开 式 是 合理 的 并 且 办 6p —- Rei, RE RH 
是 条 人 忻 
| | Gx, x OR) HOW) dxdx = 


对 于 所 有 满足 | W(x) dx < oo TURE, 


函数 o (x) 称 为 展开 的 特征 函数 ，X, 称 为 特征 值 。 所 有 的 特征 值 均 为 正 数 这 个 事实 意味 着 核 
K(x,x EEZ i], 

根据 Mercer EMm, KITA WTAE: 

。 MEA, 1, MAE x EREZA ARAR i AR o (x) 是 一 个 展开 的 特征 
pa EY 
。 理论 上 ， 特 征 空间 的 维 数 ( 即 特征 值 /特征 是 数 的 数目 ) 可 以 是 无 穷 大 ， 

Mercer 定理 仅 告 诉 我 们 一 个 候选 核 是 不 是 一 个 在 某 个 空间 中 的 内 积 核 ， 从 而 允许 用 于 一 
个 支持 向 量 宙 。 但 是 ， 它 并 没有 说 如 何 去 构 造 隐 数 oix): 我 们 不 得 不 目 己 来 做 。 

从 定义 式 (6.23) 可 以 看 出 ， 支 持 向 量 机 包含 一 种 隐 含 的 正则 化 形式 。 特 别 地 ， 使 用 根据 
Mercer 定理 定义 的 核 K ) 和 根据 算 子 D 进行 正则 化 对 应 ， 使 得 核 函 数 Ka, x) E DD 
的 格林 函数 ， 其 中 五 是 了 D 的 伴随 算 子 (Smola and Schilkopf, 1998)。 正 则 化 理论 在 第 5 章 讨 
论 。 


支持 向 量 机 的 最 优 设 计 


(6.36) HARE K(x, x ) 的 展开 式 人 允许 我 们 建立 一 个 决策 面 ， 在 输 人 空间 中 它 是 非 线 
性 的 ， 但 它 在 特征 空间 的 像 是 线性 的 。 有 了 这 个 展开 式 ， 我 们 现 对 支持 向 量 机 爱 约 束 的 最 优 
化 的 对 偶 形 式 陈 述 如 下 : 


He il RAP AH (x, dbl, 寻找 最 大 化 目标 函数 
O(a) = Ya -E D SaadidK(x,,x;) (6.40) 
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(1} Sad = Ü 

Q0cacC izLe N 
其 中 , C £14 A FICHE, 
注意， 约束 (1) 由 Lagrange AX Glai 对 (x) = 1 RS b= wo 的 最 优化 产生 。 这 里 陈 
述 的 对 偶 问 题 与 在 6.3 节 中 考虑 的 不 可 分 模式 情况 的 形式 相同 ， 除 了 内 积 Wx BARE 
K(x,,) 代 符 的 事实 。 我 们 可 以 把 K(x; ,x EEE N x 六 的 对 称 上 矩阵 KK 的 第 六- 项 元 素 ， 
表示 为 

K = (K(x, x, dC et (6.41) 

企 找 到 了 由 a,.; 表 示 的 Lagrange 乘 子 的 最 优 值 之 后 ， 我 们 可 以 确定 相应 的 线性 权 值 向 量 最 优 
值 w, ， 在 新 的 情况 下 它 改 变 式 46.17) 的 公式 联系 特征 空间 到 和 输出 空间 。 竺 别 地 ， 认 识 到 像 
p(X) 从 输入 到 术 值 向 量 w 所 起 的 作 几 ， 我 们 可 以 定 久 Ww 为 


W, = S10, de(x ) (6.42) 
其 中 glx,) 是 x; 在 特征 空间 诱导 的 像 。 注 意 w, 的 第 一 个 分 量 表示 最 忧 偏 置 5 。 
支持 问 量 机 的 例子 


核 KE,X.) 的 要 求 是 满足 Mercer 定理 。 在 这 个 要 求 之 内 ， 怎 样 选 择 它 是 有 一 定 自 由 度 
的 。 表 6- 1 小 结 支 持 向 量 机 的 三 个 普遍 类 型 的 内 积 核 函 数 ， 多 项 式 学 习 机 器 ， 径 向 基 函 数 网 
络 ， 两 层 感 知 器 。 下 面 儿 点 是 值 注意 的 ， 


表 6-1 内 积 核 小 结 
支持 自重 本 类 型 HRE Kix) = 2 F 述 
多 项 式 学 习 机 (7R +1) 指数 p 由 使 用 者 预先 指定 
径 向 基 是 数 网 络 exp( -z5 Il x~ x, 1?) 宽度 oF 对 所 有 核 相 同 ， 由 使 用 者 预先 指定 
两 层 感 知 器 tanhh( Bx x, + Bi) 只 有 一 些 特定 的 铅 ， 色 值 满足 Mercer 定理 


1. 用 于 支持 向 量 机 的 多 项 式 和 径 向 基 薄 数 类 型 的 内 积 核 总 满足 Merer 定理 。 相 反 ， 用 
于 支持 向 量 机 的 两 层 感 切 器 的 类 型 ， 其 内 积 核 受到 某 种 限制 ， 如 表 6-1 最 后 一 行 所 示 。 后 面 
的 条 目 证 实 如 下 的 事实 : 判定 一 个 给 定 的 核 是 理 符 合 Mercer 定理 确实 是 一 件 困难 的 事情 ; 
HLF 6.8, 
2. HAZAL, RCE SS [A AE AU EE BER RE, 
些 训 练 数 据 是 通过 解决 受 约束 最 优化 问题 来 获得 的 。 
3. 变 持 问 量 析 的 基本 理论 避免 启发 式 的 需要 ， 它 们 常 被 用 在 传统 的 径 向 基 函 数 网 络 和 
多 层 感 知 右 的 设计 上 面 : 
。 在 径 向 基 随 数 类 型 的 支持 问 量 机 中 ， 径 向 基 函 数 的 数量 和 它们 的 中 心 分 别 由 支持 向 
量 的 个 数 和 支持 向 量 的 值 自动 决定 。 
© 在 天 屋 感 州 胡 类 型 的 支持 癌 量 机 中 ， 隐 藏 神经 元 的 个 数 和 它们 的 权 值 向 量 分 别 由 支 
持 向 量 的 个 数 和 支持 向 基 的 值 自 动 决定 。 
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图 6-5 显示 一 个 支持 向 量 机 的 体系 结构 。 
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不 营 充 持 癌 量 机 是 怎样 实现 的 ， 基 本 此 是 不 同 于 传统 的 设计 多 屋 语 知 能 的 方法 。 在 传 
统 的 方法 里 ， 模 型 复杂 性 由 保持 特征 ( 即 隐藏 神经 元 ) 的 数量 最 小 所 控制 。 为 一 方面 ， 支 持 癌 
量 机 提供 一 个 学 习 机 硕 设 计 的 解决 方案 ， 其 模型 复兴 性 的 控制 独立 于 维 数 ， 小 结 如 下 


( Vapnik, 1995, 1998}: 


。 概念 问题 。 有 意 佳 特征 (和 隐藏) 空间 的 维 数 足够 大 ， 使 得 可 以 在 这 个 空间 建立 超 平面 
形式 的 决策 面 。 为 了 一 个 好 的 汉化 性 能 ， 模 型 的 复杂 性 通过 对 所 建立 的 超 平面 添加 
一 些 特定 的 约束 条 件 米 控制 ， 这 导致 训练 数据 中 的 一 小 部 分 被 抽出 来 作为 支持 向 量 。 

， 计算 问题 。 在 高 维 空间 的 数值 最 优化 受到 维 数 灾 的 影响 。 通 过 使 用 一 个 内 积 核 (按照 
Mercer 定理 定义 ) 的 概念 ， 和 求解 在 输入 (数据 ) 空 间 用 形成 的 约束 最 优化 问题 的 对 伪 


形式 ， 如 免 计 算 上 的 问题 、 
6.5 PF: XOR 问题 (再 讨 论 ) 


为 了 说 明 支 持 向 量 机 设计 过 程 ， 我 们 再 讨论 在 第 4 章 和 第 5 童 讨 论 过 的 KORC ak ) inl 


题 ， 表 6-2 给 出 了 4 个 可 能 状态 的 输 人 向 量 和 期 望 的 啊 应 。 





x62 XOR 问题 
a7 A [a] fet x 期 望 明 应 4 
(bees —] 
(-1,41) +1 
(+1, -1} + Í 
+l, +1} -1 
为 了 进行 处 理 ， 令 (Cherkassky and Mulier, 1998) 
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K(x,x,) = (1+ x'x,)’ (6.43) 
HĦ x= E7 » Xa i A X; = EF 1X9 于 , Ab ARR K(x, X, JOT A AAAS AER Ee Pes OO FF : 
K(x,x,) = 1 + xing + 2a aoa Nz + KIX + Qe ey + Itao 
输入 同 量 x 在 特 入 空间 中 诱导 的 像 可 推 斯 为 
p(x) = [1,1 2 was x N 2x N 2a] 
类 似 地 pix, )=[l, xa V2%, tasta N2 2x] i=1,2,3,4 
由 式 (6.41) 我 们 可 发 现 


] 
l 
l 
9 


p p ë Ř— 
— e 0 ë — 
p T e- dk 


AE H ARRIER A 2 SK (6.40)): 
Olasa q +m + +- 5 (903 — 20,0 — 2a,a, + 20,0, + 


9a; + 2m — 2m + 9 — Doro + 90g) 
对 Lagrange FES LM Co 产生 下 列 联 立 方程 组 ， 
9a, —-® —-m& + uy = | 
- 4 +9m +a, -qy = 1 
- q + + Iu -y = | 
335 a 一 了 一 上 十 go = 1 
因此 Lagrange 乘 了 的 最 优 值 为 
i 


Oo: = 42 = = &q = F 
这 个 结果 说 明 ， 本 例 中 所 有 4 个 输入 向 量 jx,H_ 都 是 支持 向 量 。Q(a) 的 最 优 值 是 
0,(a) = 1 
相应 地 ， 我 们 可 写 出 
tisi a 
2 i A 
1 
” iwi -上 


MIK(6.42), RMR PRA ie ee 
W, = HI- o(x,) + olr) + olx) - olx) ] 


| ] l 1 0 
| 1 1 l 0 

1| | ¥2 | | -v2| |-v2| |72 - 42 
=g 7} a it) a dt} a Top ad Fl 
_/2 a? (2 42 0 


-x2 (2 -x424 [2 0 
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w, 的 第 一 个 分 量 表 示 偏 置 b N OO. 
最 优 超 平 面 定 作为 {参看 式 (6.33)) 


w(x) = 0 
l 
xi 
BI 0,0, =, 0,0 o] 2a -0 
2 x? 7 
V2xi 
y 2 
这 归结 为 -Xix =Q 


对 于 NOR 问题 的 多 项 式 形 式 的 支持 问 量 机 见 图 6-6a, XI x =x -1M x, =x, 5 41, 
输出 y= 一 1]; 对 x = 一 1，x%2=+1 以 及 x= +), w= -1, 输出 y= +1。 因 此 如 图 6-6b 
所 示 ，XOR 问题 获得 解 。 


F = aA Xs 


Ty 





a) b) 


图 6-6 
qj) 解决 KOR 问题 的 多 项 式 机 器 bd KOR 问题 的 四 个 数据 点 在 特定 空间 导出 的 上 映像 


6.6 计算 机 实验 


在 这 个 计算 机 实验 中 ， 我 们 回 到 第 4 章 和 第 5 章 研 究 过 的 模式 识别 问题 。 实 验 涉及 两 个 
部 分 重 杰 的 标记 为 14, 类 ) 和 标记 为 2(%, 类 ) 二 维 高 斯 分 布 的 分 类 。 这 两 个 数据 集 的 散 询 图 
AY LASS 4-14。 用 Bayes( 最 优 ) 分 类 器 所 得 到 的 正确 分 类 的 概率 为 

p. = 81.15% 

Fe 6-3 25H AA SCF) LE ETH BLS RB AE RS, FN 
BUA, RIHTERA 

ee, 


K(x,x,} = expl - a 


其 中 相同 的 宽度 = = 4 被 用 于 数据 集中 所 有 的 点 。 机 器 对 总 数 为 N = 500 的 数据 点 上 进行 训 
练 ， 这 些 数 据点 是 从 代表 这 两 个 类 的 数据 的 总 体 中 随机 抽取 的 。 用 于 正则 化 的 参数 CH=0.1, 

表 6-3 给 出 的 结果 是 从 5 次 不 同 的 实验 中 得 到 的 ， 对 于 每 次 试验 ， 都 采用 500 个 点 进行 
训练 ， 并 用 32 000 个 数据 点 进行 测试 。 这 一 次 试验 的 平均 正确 分 类 的 概率 是 81.40%% ， 这 个 
平均 值 几乎 和 从 Bayes 分 类 器 得 到 的 相等 。 在 这 些 实验 的 一 次 实验 中 ， 最 优 结果 被 超出 了 


ey 
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0.05% , XAT miner EN a 
R63 使 用 支持 向 量 机 揭 两 类 模式 分 类 试验 结果 小 纺 
共同 宽度 oe =4, ENKER C=0.1 





(EMRE ADEE p gl 8 
7 FE Io] Be Be [TNs 208 IRF 283 287 286 

这 个 由 支持 向 量 机 获得 的 近乎 完美 的 a Pa a 
分 类 结果 由 图 6-7 所 未 的 决策 边界 进步 4 | mit | ] 
确定 ， 这 个 图 是 由 这 五 次 机 器 的 实现 中 随 | 一 sw | 
机 挑 出 的 一 次 得 到 的 。 存 这 个 图 中 Bayes | 


分 类 器 的 决策 边界 也 包括 在 内 ， 边 界 是 由 
一 个 加 构成 的 ， 圆心 是 x = [ - 213.0]7 ， 
Fit 7 =2.34。 图 66 清楚 显示 支持 问 | 
BOLT ULES, ARE, 间 的 决策 边界 | N 
使 得 它 儿 乎 和 最 优 决 策 边界 相同 。 | — 

FRNA 6-3 给 出 的 实验 结果 的 | 
小 结 ， 第 二 行 显示 支持 向 量 机 的 5 个 不 同 | 
实现 的 大 小 。 这 些 结果 表示 对 于 这 个 试 Dd a s 
b, SBS JAAA R 60 j 
的 数据 点 作为 支持 向 量 。 图 6.7 醒 式 分 类 计算 机 实验 的 决策 面 

对 于 不 可 分 离 的 模式 ， 所 有 训练 误差 
暗 致 它们 自身 的 支持 向 量 ， 这 是 从 Kuhn-Tucker 条 件 得 到 的 。 对 于 日 前 的 实验 ,误差 率 约 为 
20% 。 对 于 一 个 大 小 为 500 的 样本 ， 我 们 发 现 大 约 15 的 支持 同 量 事实 上 是 由 于 分 类 庄 闫 而 
产生 的 。 
简 评 

比较 这 个 建立 在 支持 向 量 机 基础 上 的 简单 计算 机 实验 的 结果 ， 和 4.8 节 报 告 的 在 多 层 感 
知 | 器 上 对 同一 个 数据 样本 采用 误差 反 向 传播 算法 进行 训练 产生 的 相应 结果 ， 我 们 可 以 得 出 以 
下 结论 : 

1 对 于 感 兴趣 的 问题 ， 支 持 向 量 机 具有 以 接近 最 优 的 方式 解决 模式 分 类 问题 的 固有 能 
力 。 此 外 ， 它 能 获得 如 此 显著 的 性 能 而 无 需 在 机 器 的 设计 中 嵌 人 问题 域 知识 。 

2 另 一 方面 ， 利 用 反 向 传播 算法 训练 的 多 层 感 知 器 提供 模式 分 类 问题 的 计算 高 效 的 解 。 
对 这 里 描述 的 两 类 实验 ,我 们 能 够 利用 仅 用 两 个 隐藏 神经 元 的 多 层 感知 器 达到 79.70% AE 
确 分 类 概率 。 

在 微 这 个 简 评 中 ， 我 们 窗 出 了 模式 分 类 的 这 两 种 方法 各 自 药 优点 。 和 但是， 为 了 得 到 公允 
的 评论 我 们 必须 确认 它们 各 自 的 缺点 。 在 支持 向 量 机 的 情况 ,近乎 完美 的 分 类 性 能 是 付出 很 
大 计算 复杂 性 代价 而 取得 的 。 另 一 方面 ， 对 利用 反 向 传播 算法 训练 多 层 感 知 锋 对 同一 模式 分 
类 任务 ， 要 法 到 和 支持 向 量 机 差不多 的 性 能 ， 必 须 做 两 件 事 : 在 感知 器 的 设计 中 建立 问题 领 
域 的 知识 ， 以 及 调整 大 量 的 设计 参数 ， 对 于 困难 学 习 任 务 这 是 令 人 头痛 的 实践 。 
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6.7 e- TRR BR 


SAR AL, FREPTAHAZR EIR AES WE, REENE 
向 量 机 求解 非 线性 回归 问题 ， 为 了 准备 这 个 评论 ,我们 首先 讨论 适合 这 类 学 习 任 务 的 最 优化 
准则 问题 . 

在 第 4 KTS RAS 5 BATEMAN TCH, RMA RA A 
数 作 为 这 些 网 络 的 优化 准则 。 利 用 这 个 准则 的 主要 原因 是 数学 上 的 ， 即 为 了 计算 上 的 方便 。 
但 是 ， 最 小 二 履 佑 计 兹 对 异常 点 (outlier}( 即 对 于 一 个 微小 模型 得 到 异常 大 的 更 察 ) 的 出 现 非 
党 敏感 ， 并 也 当 加 性 噪声 的 固有 分 布 有 很 长 的 尾部 时 它 表 现 很 差 。 为 了 克服 这 些 局 限 ， 我 们 
再 要 一 种 午 樟 的 估计 器 ， 它 对 模型 小 的 改变 不 敏感 。 

以 鲁 容 性 作为 设计 目标 ， 对 于 任何 鲁 棒 性 的 数值 度量 必须 考虑 到 由 于 微小 只 声 模型 的 一 
个 一 仿 差 而 可 能 产生 最 大 性 能 退化 。 根 据 这 种 观点 ， 一 种 最 优 鲁 禄 估计 过 程 是 最 小 化 最 大 
的 性 能 和 严 化 ， 因 而 是 一 种 最 小 最 大 这 各 (Huber,1981).。， 当 加 性 虹 声 的 概率 窗 诺 函数 关于 原点 
对 称 时 ,求解 非 线性 回归 问题 的 最 小 最 大 过 程 * 利用 绝对 误差 作为 被 最 小 化 的 量 (Huber, 
1964), WHA, MAMMA AH 

LMd,y) =ld-y (6,44) 
其 中 d 是 期 望 响 应 而 y 是 估计 器 输出 

为 了 构造 文 持 同 量 机 逼近 期 望 的 响应 4， 我 们 利用 式 (6. 笛 ) 的 损失 函数 的 扩展 ， 它 由 

Vapnikt 1995 ,1998) 最 早 提 出 ， 这 里 可 描述 为 

| d- y l-e, Mfld-yvyime 
Laid, y) = | 0 其 他 

其 中 是 指定 的 参数 ， 损 失 图 数 Ld, y IRAH e- RE Ld, y) 
Fed KK (¢-insensitive loss function). QE fAth gem E 
y ARH d 的 偏差 的 绝对 值 小 于 e, MESTE, 
否则 它 等 于 偏差 绝对 值 减 具 e 式 16.44) 的 损失 因数 是 
se 一 不 敏感 损失 函数 在 es=0 时 的 特殊 情形 ， 图 6-8 说 明 


(6.45) 





Ld FRE d- y 的 依赖 关系 。 -e 0 te d-y 
6.8 ”用 手 非 线性 回归 的 支持 向 量 机 图 6-8 c- DRRR RN 
AE A aA, ， 标 量 a 对 向 量 x 的 依 玉 可 描述 为 
d = f(x) +1 (6.46) 


tr (BSE ZR AE eee fx) MAES 2 章 讨论 的 条 件 期 FL Dix]; D 是 一 个 随机 变量 ， 它 的 一 
次 实现 记 为 do 加 性 噪声 项 o EST RI FA De x KH, PR fC RS v 的 统计 特性 是 
未 知 的。 我 们 所 有 可 用 的 信息 就 是 一 组 训练 数据 i (x,,d,)|,， 其 中 x 是 输入 向 量 x 的 一 个 
EÉ, d, 是 模型 输出 4 的 柑 应 伍 。 问 题 是 提供 d 对 的 依赖 的 估计 。 

进一步 我 们 假设 d 的 估计 记 为 yx， 它 是 由 一 组 非 线 性 基 画 数 iqp (x) 1m, 的 展开 得 到 的 ; 


y= >) we(x) = w(x) (6.47) 
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246 So BOR 
其 中 p(x) = | q(x), 0,08) CE] 
Fi WH wigs Wye ] 
和 以 前 一 样 假 是 mlx) = 1， 这 样 权 值 wo RAE 3。 需求 解 的 问题 是 最 小 化 经 验 风 险 
Raw = Hi Dy bd (6.48) 
满足 不 等 式 
| wil’ < eq (6.49) 


其 中 ce 是 常数 。e — 不 敏感 损失 函数 也 (dy 在 前 面 式 (6.45) 中 定义 ， 我 们 可 以 引 人 两 组 非 
Hae ESN Ae || 重新 表示 这 个 约束 最 优化 问题 ， 松 弛 变量 定义 为 ， 


d,-welx,) <e+6, j=1,2,,N (6.50) 

wotx,)-d <2e+%,, i=l, 2e, N (6.51) 

Ee = 0, = 1,2, n, N (6.52) 

#0, = 1,2,4, N (6.53) 

FA aE A E, FU, ARGAS EA e- 不 敏感 损失 函数 。 因 此 ， 这 个 约束 最 优化 问题 等 


价 于 最 小 化 代价 泛 多 
Dwe E) = CD +28) + ww (6.54) 


满足 式 (6.50) 至 (6.53) 的 约束 条 件 。 结合 在 式 (6.54) 的 泛 函 再 (we 名) 中 的 项 w'w/2， 我 们 
As a Be 3X (6.49) AA SEAR, CERO. SOHNE CRAP RE HB. Mit, AHT 
定义 Lagrange 图 数 

Jw, EE am YY)= C pS +) + JW w - > au[wre(x ) 三 | 


My 


N 
die [d, 一 wW o(x, ) + & + E] = > (YE, F Ye 


(6.55) 
其 中 P a, 是 Lagrange 乘 子 。 式 (6.55) 右 边 最 后 一 项 涉及 Y, 和 YY, 是 为 了 确保 Lagrange W 
Tas of, 的 最 优 性 条 件 成 为 可 变形 式 。 要 求 对 w 和 松弛 变量 g 各 最 小 化 (Ww,&,& aa ,Y， 
Y); 同时 也 必须 对 a, ,of, M Y, Y 最 大 化 它 。 求 解 这 个 最 优化 ， 我 们 分 别 有 


w= Do -oi) px) (6.56) 
Y= C-a, (6.57) 
和 和 Y,=C-v, (6.58) 


A aR Jw E, E ,au Yy y RREA aom, OT REA OSB, Fe 
R6.56) 2 (6.58) 4RA(6.55) 2, MTANI A ERAZ) 


Olang) = 2, di (a; -a,)-« (a, + ai) -— 
| N 7 (6.59) 
py 2; > tes a’; (a; ~ of J) K(x, ,x,) 
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其 中 K(x, ,X) 是 按照 Mercer 定理 定义 的 内 积 核 
K(x,.x,) = 9’ (x, )olx,) 
我 们 得 到 约束 最 优化 问题 的 解 是 在 对 Lagrange FEF a Fle’, 最 大 化 Qla, ) 得 到 的 ， 这 两 个 乘 
FREMA RS OC 的 一 组 新 的 约 果 条件， 其 中 5 包含 在 式 (6. 和 4) 的 函数 于 (Ww,&, 癌 ) 的 年 浆 中 。 
我 们 现在 可 以 陈述 利用 支持 同 量 机 的 非 线性 回归 的 对 偶 癌 题 如 下 ; 


Re iN AEB Cx. d ME Belk Lagrange AF loii 和 ia "| 使 其 最 大 化 目标 函数 
Qla) = Dy l(a -a;)-—«€ He + of, ) - 方 3 SMa, —a;)(a, ~ of; ) K(x; X) 


c=] 1:=| 


满足 欧 来 条 件 
N 
(1) Sla; -g ) = 0 
t=1 
(DOsea<¢C,i=1,2,°° 
Jee EC ld 


KP CAR FMEA. 


Lagrange PARR LICE, Xt (x) = 1 Ob = we, 产生 约束 条 件 (1)。 因 此 ， 获 
得 最 优 的 mw Alo’, 的 值 后 ， 对 给 定 的 上 映射 g(x) 我 们 可 以 利用 式 (6.56) 确 定 权 值 向 量 w 的 最 优 
值 。 注意 和 模式 识别 问题 的 解 一 样 ， 在 式 (6.56) 的 展开 中 仪 有 一 些 系 数 不 为 零 ， 特别 ，a, = 
;对 应 的 数据 点 定义 为 机 器 的 支持 向 量 。 

eA C ete lt A 


F(xw) = wx = So, -€ ) K(x,x,) (6.60) 


VC 维 数 的 自由 参数 。s MC 两 考 都 必须 由 用 户 选择 。 从 概念 上 讲 , ee 和 6 的 选择 提出 和 模 
式 分 类 中 参数 局 的 选择 同样 的 复杂 性 控制 问题 。 但 是 ， 实 际 上 问 归 的 复杂 性 控制 是 一 个 更 
困难 的 问题 ， 这 是 由 于 下 列 原因 ， 

© SHA e M C 必须 同时 调整 。 

。 回归 本 质 上 比 模 式 分 类 更 困难 。 
Et 和 C 选择 的 原则 方法 一 下 是 一 个 未 解决 的 研究 领域 ， 

最 后 ， 和 用 于 模式 识别 的 支持 回 量 机 一 样 ， 用 于 非 线性 回归 的 支持 向 量 机 可 以 用 客 项 式 
项 学 习 机 、 径 向 基 函 数 网 络 或 两 层 感 知 器 实现 。 三 种 实现 方法 的 内 积 核 在 表 6-1 中 给 出 。 


6.9 小 结 和 讨论 


支持 向 量 机 是 为 了 设计 仅 含 有 一 个 非 线 性 单元 隐藏 层 的 前 馈 网 络 的 一 种 精巧 和 高 度 原则 
化 的 学 习 方 法 。 它 由 植 根 于 VC 维 理 论 的 结构 风险 最 小 化 原则 导出 ， 这 一 点 使 得 它 的 推导 更 
加 深奥 。 正 如 它 的 名 字 所 揭示 的 ， 机 旨 的 设计 随 抽 取 训 练 数据 的 子 集 作为 支持 向 量 而 定 ， 因 
而 代表 数据 的 一 个 稳定 特征 。 支 持 向 量 机 包括 多 项 式 学 习 机 器 、 径 向 基 范 数 网 络 和 英 层 感知 
佛 作 为 其 特殊 情形 。 因 此 ， 虽 然 这 些 方法 提供 训练 数据 的 内 在 统计 规则 的 不 同 的 表示 ， 但 是 
它们 都 深 于 支持 向 量 机 设置 的 一 个 共同 基础 。 

与 流行 的 反问 传播 算法 不 同 ， 支 持 向 量 学 习 算 法 仅仅 按 集中 方式 进行 。 这 两 个 算法 存在 
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A—-THE#A, RMEBRES SSL EtA ME TLR RA TAR. FB 
于 模式 识别 的 支持 回 量 机 学 习 算 法 和 用 于 非 线 性 回归 有 有 很 大 区 别 ， 如 下 所 述 ， 
© 当 完 成 模式 识别 任务 时 ， 文 持 向 量 学 习 算 法 最 小 化 藩 在 正 例 和 反例 分 离 边 缘 内 的 训 
SF eA; 这 只 是 近似 对 的 ， 因 为 使 用 人 松 缉 变量 上 BR eee IE -1}。 BR 
这 个 准则 和 最 小 化 分 类 误差 的 概率 不 完全 一 样 ， 但 是 它 被 认为 比 反 向 传播 学 习 算法 
的 艾 方 误差 准则 更 适合 。 
* 当先 成 非 线 性 回归 任务 时 ， 支 持 向 量 学 习 算 法 最 小 化 的 。-- 不 敏感 损失 函数 是 最 小 
最 大 理论 的 平均 绝对 误差 准则 的 一 各 推广。 因此 算法 为 鲁 桂 性 的 。 
不 演 学 习 任 务 是 什么 ， 蔓 持 辣 量 栅 提供 一 种 独立 于 维 数 的 控制 模型 复杂 性 的 方法 。 特 别 
地 ， 利 用 定 头 在 特征 ( 隐 左 ) 空 间 的 惩罚 起 平面 作为 决策 面 ， 模 型 的 复杂 性 问题 在 高 维 空间 中 
得 到 解 次 ,结果 有 很 好 的 证 化 人 性能。 通过 把 处 理 约束 最 优化 问题 集中 于 其 对 偶 问 题 ， 绕 过 维 
数 灾 的 轩 难 。 利 用 对 偶 设 置 的 一 个 重要 原因 就 是 避免 在 数据 空间 中 定义 和 计算 可 能 的 高 维 数 
最 优 超 平 面 的 参数 。 
通 消 文 持 回 量 机 的 训练 包含 一 个 二 次 规划 癌 题 5 ， 这 个 问题 由 于 两 个 原因 而 有 吸引 力 ， 
” 它 保 让 找到 误差 曲面 的 全 局 极 值 点 ， 在 这 里 误差 是 指 期 望 响应 和 支持 向 量 机 输出 之 
则 的 差异 。 
* 计算 可 以 被 有 效 的 执行 。 
最 重要 的 是 ， 通 过 使 用 一 个 恰当 的 内 积 核 ， 支 持 向 量 机 可 区 根据 内 积 核 的 选择 白 动 计算 
所 有 重要 的 网 络 参 数 。 例 如 ， 在 径 向 基 函 数 网 络 的 情形 ， 核 函数 是 Cas 函数 ， 对 于 这 种 实 
现 方法 ， 径 同 基 函 数 的 数 时 和 它们 的 中 心 ， 以 及 线性 权 值 和 偏 壮 水平 ， 都 是 自动 计算 的 。 生 
四 基 郴 数 的 中 心 由 二 次 优化 策略 挑选 的 支持 向 量 定 义 。 支 持 向 量 通 常 是 出 训练 样本 组 成 的 样 
本 总 司 的 一 部 分 。 因 此 我 们 可 以 将 利用 支持 向 量 机 学 习 过 程 所 得 到 的 RBF 网 络 的 设计 ， 看 
作 前 一 童 描述 的 使 用 严格 播 值 策略 得 到 的 设计 结 毕 的 一 种 知 牙 性 版 本 。 
可 以 用 几 个 商用 的 最 优化 库 中 求解 二 次 规划 问题 。 但 是 ， 这 些 库 的 使 用 受到 限制 。 对 于 
二 次 规划 问题 的 存储 需求 随 着 训练 样本 的 大 小 平方 地 增长 。 从 而 对 现实 生活 中 可 能 涉及 几 千 
个 数据 点 的 应 用 问题 ， 直 接 利 用 商用 最 优化 库 不 能 求解 二 次 规划 问题 。Osuna et al. (1997) B 
经 发 展 了 一 种 新 的 分 解 算法 ， 通 过 求解 一 系列 更 小 的 子 问 题 到 得 最 优 解 。 特 草地 ， 分 和解 算 法 
利用 文 持 向 量 的 系数 仅 在 由 mw =0 或 a,= C 定义 的 边界 的 一 边 起 作用 的 这 个 特点 。 在 那里 报 
告 了 分 解 算法 能 够 对 具有 100 000 个 数据 的 应 用 给 出 满意 的 结果 。 
至 于 运行 时 间 ， 当 前 交 持 向量 机 在 类 似 的 汉化 性 能 上 比 其 他 神经 网 络 ( 例 如 用 反 向 传播 
算法 训练 的 多 层 感 知 器 ) 慢 。 有 两 个 原因 导致 这 样 慢 的 行为 . 
1. 对 于 由 学习 算 法 挑选 的 用 作 支 持 向 量 的 数据 点 总 数目 没有 控制 。 
2. 没有 预先 将 尾 务 的 先 验 知识 合并 到 学 习 机 器 的 设计 中 。 
现在 简要 讨论 为 了 克服 这 些 缺 点 而 对 支持 向 量 机 进行 的 修改 。 
怎样 控制 支持 问 量 的 选择 是 一 个 困难 的 问题 ， 特 别 是 在 待 分 类 的 模式 为 不 可 分 的 且 训 练 
数据 有 噪声 时 。 一 般 地 ， 试 图 在 训练 前 从 数据 中 消除 已 知 误 差 或 在 训练 之 后 从 展开 中 消除 它 
们 ,将 给 出 不 同 量 优 超 平面 ， 这 是 因为 您 罚 不 可 分 性 需要 误差 。 在 Osuna and Girosi( 1998) 的 
文章 中， 研究 了 减少 用 于 模式 识别 的 支持 向 量 机 的 训练 时 间 。 处 理 这 个 问题 的 两 个 新 方法 描 
述 如 下 : 
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— Ss ee = —— me T_T Mi es P ll 


© AHEHE, DA PSE RR DRT) 

* Hep oe BU ee te Le, LA BCD H EE RA E J A RS BD o 

CE AIL, LAL BERR — PP RAE BU BU La HA RA 
TT SC FFG] LA BRET BOR TET H9 BE ppc Fe, Te 


ECP) = $) idi- FORD, +5 js (FF) 


其 中 FC) AIT ea, WC HEE lxi e nial: EMA 
phat Blxl<e 
lal—e w M 
e- ARRARO RRA EA EA OT At A SP BOD e 的 误 益 不 敏感 的 作用 。 代 价 
RE CFM vA A 


F(x) = Seci) 


的 形式 ， 其 中 核 CO, ti TGA E A v(- ) 的 特殊 选择 ， 并 且 通 过 求解 一 个 二 次 规划 问 
RATT RY co RERA: 那 就 是 ， 只 有 少数 o 不 为 零 ， 非 零 的 数目 由 参数 。 控制 。 
在 第 二 种 方法 中 ， 原 问题 被 重新 表示 为 和 最 初 的 原 问 题 有 相同 的 初始 结构 ， 人 有 一 个 区 别 ， 
ARK Kix. xX ) 结 合 进 新 的 表示 中 。 这 两 种 方法 也 适用 于 减少 非 线性 回归 的 支持 向 量 机 的 复 
杂 性 。 

最 后 ， 转 到 先 验 知识 的 问题 ， 人 们 广泛 认识 到 在 机 器 设计 中 通过 结合 任务 的 先 验 知识 可 
以 提高 党 习 机 器 的 性 能 (Abu-Mostafa, 1995)。 一 般 地 ， 在 文献 中 已 经 研究 两 种 不 同 的 利用 先 
Ke ALR AT HE: 

© 在 代价 照 数 中 包含 一 个 附加 项 ， 从 而 强迫 学 习 机 器 构造 一 个 加 人 人 先 验 知 识 的 函数 。 

这 正 是 利用 正则 化 所 做 的 事情 。 
* 从 已 给 训练 样本 中 产生 虚拟 样本 。 这 里 的 动机 是 学 习 机 器 从 大工 扩 大 的 训练 集 数据 
PIE A th By Sa AG 

在 第 二 种 处 理 方 法 中 ， 由 于 人 工 数据 的 相关 性 和 训练 数据 集 的 增 大 ， 学 习 过 程 可 能 变 
人 龟 。 但 是 第 二 种 方法 比 第 一 种 方法 有 一 个 优点 ， 那 就 是 对 于 所 有 的 先 验 知 识 和 学 习 机 器 ， 它 
很 容易 被 实现 。 第 二 种 方法 的 实现 方式 可 进行 如 下 (Sohalkopf et al. , 1996): 

1. 按 通常 方法 对 给 定数 据 训 练 支持 向 量 机 ， 抽 取 一 组 支持 向 量 ，。 

2. 对 第 1 步 获得 的 文 持 回 量 ， 通 过 以 期 望 的 不 变性 变换 形式 应 用 先 验 知识 ， 生 成 称 为 
mi x aE A TAA, 

3. 对 人 于 增 太 的 样本 集训 练 另 一 个 支持 向 量 机 。 

这 个 方法 具有 以 适度 的 时 间 代 价 获 得 分 类 精度 显著 增加 的 优点 :; 它 需 要 两 轮训 练 而 不 是 
一 辊 训练 ， 但 它 利用 更 多 的 支持 向 量 构造 分 类 规则 。 


注释 和 和 参考 文献 


ll] SEA 图 ”的 一 个 子 集 ， 子 集 纪 说 是 凸 的 ， 如 果 
ax +(l~oady Eg 对 所 有 {x,yY) E CHa € [0,1] 
peak f; E> R ieee, koe 
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flax + (l-a)y) gaflx)+ (1 -ofi r) A Alr, y) © Mla © [0,1] 

[2] 以 计算 复杂 性 作为 感 兴 趣 的 剖 题 ， 我 们 可 以 确认 算法 的 两 种 类型 : 

* 多 项 式 时 间 彰 法 ， 它 要 求 的 和 运行 时 间 是 问题 大 小 的 多 项 却 柄 数 。 例 如 ， 通 消 用 于 谐 
分析 的 快速 Fourier 党 换 CFTT 鼻 法 ， 是 多 项 却 时 间 算 法 ， 它 而 要 运行 时 间 为 nlogn， 
其 中 ”为 问题 的 天 小 。 

*。 指数 时 间 扯 法 ， 它 要 求 运 行 时 间 是 问题 大 小 的 指数 消 数 。 例 如 ， 一 个 指数 时 间 算 法 
REE SAT Al 2"， 其 中 n 为 问题 天 小 的 度量 - 

基于 此 ， 我 们 可 以 将 多 项 式 时 间 算 法 看 作 “ 有 效 " 算 法 ， 而 指数 时 间 算 法 看 作 “ 无 
对 实际 中 出 现 的 许多 起 计算 问题 ， 迄 今 为 目 仍 没有 设计 出 有 效 算法 。 如 果 不 是 所 

有 的 至 少 也 十 许多 这 些 看 起 难 解 的 问题 属于 称 为 NP 完全 问题 的 一 类 问题 。 术 语 “NP” 

代表 “ 非 确 年 多项式 "(Nondeterministic Polynomial) 。 
基于 NP 完全 问题 的 更 许 细 讨论 可 参看 Cook (1971)，Garey and Johnson(1979) 和 

Cormen et al. (1990); 

[3] 在 Aizerman et al. (1964a,1964b) PRA ARR a TERA, ARR 
ARRERA A. JLE, Vapnik and Chervonenkis( 1965) 发 展 最 优 超 
平 区 的 思想 。 构 成 支持 向 量 机 的 这 两 个 有 有 力 概 念 的 组 合 使 用 是 Vapnik 及 合作 者 1992 年 提 
BEJ; 参看 Boser, Guyon and Vapnik( 1992) 2A Æ. Cortes and Vapnik( 1995). 交 持 向 量 机 的 完 
a SCF jak BCT Yapnik(1995) 中 给 出 ， 随 后 在 Vapnik( 1998) 中 以 扩展 形式 给 出 ， 

[4] Huber 的 最 小 最 大 化 理论 的 基础 是 邻 域 ， 这 些 邻 域 由 于 不 包含 非 对 称 分 布 ， 因 此 不 是 全 
局 的 。 但 是 ,这 个 理论 成 功 解决 了 一 大 部 分 传统 的 统计 学 问题 ， 特 别 的 是 回归 问题 。 

[5] 在 Schummars(1997) 中 ， 利 用 线性 规划 探讨 使 用 L 范 数 让 mw 站 ， 替 代 在 支持 向 基 机 中 使 
用 的 L 723% ll wil, SUES wg L 范 数 定义 为 


| wll = > | w, | 
其 中 w, dew i Pou, ALA L 范 数 的 最 大 分 类 边界 看 上 去 偏向 超 平 面 从 标 轴 的 
方 可 ， 也 就 是 偏 问 权 值 向 量具 有 很 少 非 零 元 素 的 方向 。 
[6] 二 次 规划 的 商用 库 包 括 下 列 的 软件 : 

* MINOSS .4:(Munrtagh and Saunders, 1978) 

* LSSOL(GIl et al. ,1986) 

« LOOOC(Vanderbei, 1994) 

* QPOPT and SQOPT(Gill and Murray, 1991) 


习题 


Bin Ree 
6.1 考虑 用 于 线性 可 分 和 模式 的 超 平 面 ， 它 由 方程 
wxidb = 0 
EMA, 其 中 Ww 表示 权 值 向 量 ，8 为 偏 置 ，x 为 输入 向 量 。 如 果 输 人 模式 集 f{x,1*, 满 足 附 加 
的 条 忻 
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min |wx +bl=l 
则 称 赵 平面 对 应 于 标准 对 (canonical pair) (w, 5)。 证 明 标 准 对 的 这 个 要 求 导致 两 类 分 离 边 界 
之 间 的 距离 为 2/ || wll 
6.2 在 不 可 分 类 模式 的 表 景 下 判断 下 列 陈 述 ， 错 分 类 意味 着 模式 的 木 可 分 性 ， 但 相反 
则 林 必 真 。 
6.3 以 不 可 分 模 芭 的 分 离 超 平面 的 最 优化 作为 原 问 题 的 开始 ， 构 造 如 6.3 节 描 述 的 对 
倘 问 题 的 公式 。 
6.4 在 本 是 中 ， 利 用 在 第 4 章 讨 论 的 “ 留 一 法 "估计 不 可 分 模式 的 最 优 牛 平面 产生 的 期 
罩 测 试 运 去。 通过 删除 训练 样本 中 任意 一 个 模式 并 且 根 据 剩 下 的 模式 构造 一 个 解 ， 讨 沦 使 用 
这 种 方法 可 以 引发 的 各 种 可 能 性 。 
6.5 数据 至 则 中 最 佐 超 平面 的 位 置 由 被 选 为 支持 向 量 的 数据 点 决定 。 如 果 数 据 有 了 噪声 ， 
人 和 们 的 第 一 反应 也 许 是 质疑 分 离 边界 对 噪声 的 鲁 慷 性 。 但 对 最 优 超 平 商 的 详细 研究 揭示 分 离 
边界 对 品 声 实际 上 是 鲁 棒 的 。 讨 论 这 种 鲁 棒 性 的 根据 。 
内 积 核 
6.6 ARTZ K(x ,x;} 是 在 训练 个 样本 集 9 上 计算 的 ， 它 产生 Wx N ER: 
K = |K Ie, 
其 中 Ky, = K(X, ,x;)}。 由 于 它 的 所 有 元 素 的 值 为 正 ， 秆 阵 KK 是正 的 。 利 用 相似 变 摘 
K = QAQ’ 
其 中 A AREARE, mi QOAAEARPTIE [ey at PA RIG, M OK APE ORE eo Ba 
i ARK K(x, 2) 的 表达 式 。 你 可 以 从 这 个 表达 式 得 出 什么 结论 ? 
6.7 (aA Kix, x WBE, Rp 
K(x,x,) = K(Qx,Qx, ) 
其 中 Q 为 酉 矩阵 定 习 为 Q =Q 
(hb) 证 有 明 表 6-1 PHIRI ARB IX TER. 
6.8 PUSAN ARR Be A 
K(x,x,) = tanh(@,x’x, + R) 
RET ST ASX B, AB, 的 菜 些 什 不 满足 Mercer EM, 
模式 分 类 
6.9 用 于 求解 XOR 问题 的 多 项 式 学 习 机 使 用 的 内 积 核 定 六 为 
K(x,x) = (1 + x’x,)’ 
解 XOR 问题 的 指数 p 的 最 小 值 是 多 少 ? 假定 p 为 正 整 数 。 使 用 比 最 小 值 太 的 p 值 会 出 现 什 
LEE IRD 
6.10 图 6-9 表 示 三 维 模式 关上 运算 的 XOR 函数 ， 描 述 为 
XOR( x, 542543) = x, Cx, B x, 


FCA FES Do Fk aR BR, Wit tEn, AR MERA SE 
示 的 两 类 点 。 
6.11 在 整个 这 一 童 中 我 们 讨论 利用 支持 问 量 机 进行 二 分 类 。 讨 论 支持 向 量 机 如 何 解决 
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Se: o = — m., a — a, me =< m m o a ë ‘M _ m 


M 类 模式 分 类 的 问题 (村 > 2). 
非 线 性 回归 
6.12 在 6.8 节 描述 的 利用 支持 向 量 机 求解 非 线性 国 归 问题 的 对 由 问题 ， 包 括 约 束 条 件 


S} (a, -a.)=0 

HP a, Alo’, 为 Lagrange FEF. WEIR PA RATE AT i Ob 最 小 化 Lagrange 函数 而 得 到 ， 
即 对 应 于 (x) = 1 的 权 值 向 基 w 的 第 一 个 元 素 zu。 
优点 和 局 限 

6.13 (a) 就 下 列 任务 比较 支持 问 量 机 和 和 往 辣 基 孙 数 (RBF) 网 络 的 优点 和 局 限 ，(1) 模 式 
TÆ, (EREDA, 

(b) RTF iF lh] EALAR FB Be EE A A BS & RE E EE R. 
计算 机 试验 

6.14 图 6-10 表示 两 个 类 多 AIG, 的 一 组 数据 点 。 两 个 坐标 轴 x, 和 x, 的 范围 者 为 -1 
Aj +l HHAH RERA 

K(x,t) = expl- |x- tl 

对 这 个 数据 集 构造 最 优 超 平面 。 


Aa 


a | 


VAG 
vie 





Xs 


图 6-9 图 6- 10 


6.15 Æ 6.6 TIRANA SMASH Gus 分 布 进行 分 类 。 用 于 
这 个 实验 的 正则 化 参数 是 C =0.1., 用 于 构造 内 积 核 酒 数 的 径 向 基 函 数 的 共有 宽度 为 =4, 
对 于 以 下 的 两 个 正则 化 参数 重复 那 一 节 中 提 到 的 计算 机 实验 :， (aaJC=0.0，(pyC=0.2。 根 
据 6.6 节 报告 的 结果 评论 你 的 结果 。 

6.16 在 用 径 回 基 函 歼 网 络 求解 非 线性 回归 问题 时 ， 既 常 发 现 用 多 二 次 函数 之 类 的 非 局 
Af Ze: PRIA EL AG Gauss 函数 之 类 的 局 部 基 困 数 导致 更 高 精度 解 。 对 支持 向 量 机 可 能 猜想 会 出 现 


FADES ae, ALA A ARC IC) SAE SI LT GEA A RRMA RS. 


模式 分 类 问题 用 计算 机 实验 探讨 这 个 推测 的 正确 性 。 
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第 7 章 委员 会 机 站 





7.1 简介 


在 前 面 三 章 ， 我 们 描述 三 种 不 同 的 监督 学 习 方法 。 在 第 4 章 ， 讨 论 册 及 方 自传 描 扯 法 训 
练 的 MLP， 其 设计 依靠 全 局 优化 方式 ， 在 第 5 章 ， 讨论 RBF 网 络 ， 其 设计 恢 乔 局 部 优化 方 
式 。 在 第 6 章 ， 讨 论 支 持 向 量 机 ， 其 设计 利用 VC 维 数 理论 。 在 本 章 我 们 将 要 提出 另外 一 类 
解决 监督 学 习 任 务 的 方法 。 这 里 使 用 的 方法 基于 一 个 通常 的 工程 原则 : 分 而 治之 。 

根据 分 而 溶 之 的 原则 {principle of divide and conquer). 一 个 复杂 的 计算 任务 被 分 解 成 一 些 
简单 的 计算 任务 ， 然 后 雷 将 这 些 任务 的 解 重新 组 合 起 来 。 在 监督 学 习 中 ,我 们 将 党 习性 秀 分 
卫 给 一 些 专 家 以 求 得 计算 的 简单 化 ， 这 样 就 将 输入 空间 划分 成 一 组 于 空间 ..， 这些 专家 的 组 从 
就 形成 了 委员 会 机 器 (committee machine)。 从 基本 上 说 ， 它 融合 各 专家 所 获得 的 知识 使 该 机 
器 能 作出 全 局 决策 ， 可 以 设想 这 种 决策 优 于 任何 一 个 专家 单独 作出 的 雇 策 。 这 种 "委员 会 机 
器 "的 思想 可 以 追 潮 到 Nilsson( 1965); 那里 考 虚 的 网 络 结 构 是 由 一 个 基本 的 感 州 元 技 后 面 跟 
着 在 第 二 层 的 一 个 投票 感 惠 傅 组 成 果 。 

委员 会 机 器 是 通用 通 近 器 。 它 们 可 以 被 分 成 两 大 类 

1. 静态 结构 。 人 在 这 种 委员 会 机 器 中 ， 组 合 几 个 预报 郁 ( 专 家 ) 啊 应 的 机 制 和 输入 信 生 无 
关 ， 国 此 这 种 设计 是 "静态 "的 。 这 一 类 包括 以 下 的 方法 : 

。 总 体 平 均 ， 其 中 将 不 同 的 预报 器 输出 进行 线形 组 合 ， Pre RAR. 

。 推举 { boosting) 方 法 ， 其 中 药学 习 算 法 被 转化 为 一 个 能 达 刘 尾 意 苘 迷 确 虐 的 扯 靶 。 

2. 动态 结构 。 在 这 第 二 .种 委员 会 机 器 中 ， 将 各 单个 专家 输出 组 合成 整体 输出 的 机 制 耳 
接种 输入 信号 相关 ， 因 此 名 为 “动态 ”"。 这 里 ， PN 

。 混合 专家 ， 所 有 专家 的 单独 向 应 通过 单个 站 网 非 线性 地 组 合 

。 分 层 混合 专家 ， 所 有 专家 的 单独 响应 道 过 多 个 站 网 层次 式 地 非 线性 组 合 。 

在 混合 专家 中 ， 分 而 治之 的 原则 只 被 应 用 一 次 ; 而 在 分 层 混 合 专家 中 ， 分 而 治之 的 原则 
被 应 用 多 次 ， 因 而 产生 相应 数量 的 层次 。 

湛 合 专家 网 络 和 分 屋 泥 合 专家 网 络 了 岂可 以 被 看 作 组 合 网 络 (modular network) BI. H 
合 性 的 (modularity) 概 念 的 正式 定 关 是 (Osherson et al. ,1990 ); 

一 个 神经 网 络 ， 只 要 它 所 进行 的 运算 能 分 解 成 两 个 或 者 多 个 组 件 (module}( 了 于 系统 )， 各 
个 组 件 有 独立 的 输入 变量 ， 且 相互 之 间 没 有 通信 ， 则 称 该 神经 网 络 是 组 合 化 的 。 各 人 小 组 件 的 
输出 被 一 个 整合 单元 调节 ， 不 允许 向 各 个 组 件 反 馈 信 息 。 特 别 地 ， 整 合 单元 完成 两 项 任务 ， 
(1) 决 定 各 个 组 件 的 输出 怎样 被 整合 ， 形 成 整个 网 络 的 最 终 输 出 ，(2) 决 定 哪些 组 件 应 学 习 哪 
些 训练 模式 ,。 

这 种 组 合 性 定义 排除 静态 结构 的 委员 会 机 器 ,因为 它 在 输出 端 不 存在 具有 决策 作用 的 整合 单 
JEg 
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均 的 方法 ， 其 后 了 .3 节 是 计算 机 实验 。7.4 THER RR, EJE 7.5 节 是 计算 机 实验 。 

本 章 第 二 部 分 为 动态 结构 类 ， 包括 7.6 T713 节 。 具 体 地 ，?.6 节 讨 论 混 合 专 家 
(ME) 作 为 联想 Gauss 混合 模型 。7.7 节 讨 论 虹 一 般 的 情况 ， 即 分 层 混 合 专 家 (HME)。 这 后 一 
模型 和 标准 决策 树 紧 密 相 关 。 然 后 7.8 节 描 述 怎样 对 分 层 混合 专家 运用 标准 决策 树 求解 AME 
的 烧 型 选择 问题 ( 旭 门 网 和 专家 网 络 的 数 和 且 )。 在 7.9 节 我 们 定 多 后 验 概 率 ， 帮 助 我 们 对 用 手 
HME 模型 的 学 习 方法 建立 公式 。 在 7.10 节 遂 过 对 HME 模型 形成 似 然 函数 为 解决 参数 估计 问 
题 葛 定 基础 。7.11 节 给 出 学 习 策 栈 的 概览 。 随后 在 7.12 节 对 EM 算法 进行 详细 讨论 ,在 
7.13 节 把 这 种 算法 应 用 于 HME 模型 。 

fe. 7.14 WWII ARAS 


7.2 总 体 平 均 


图 7-1 显 小 了 各 种 训练 好 的 神经 网 络 ( 即 专家 )， 它 们 有 一 个 共同 的 输入 ， 然 后 将 它们 各 
目的 输出 整合 成 一 个 总 的 输出 y。 为 简化 说 明 ， 这 些 专 家 的 输出 假定 为 标量 值 。 这 种 技术 被 
称 作 总 体 平 均 方 法 上“。 使 用 这 种 方法 有 双重 动机 

”假如 图 7-1 中 专家 的 整合 用 单个 神经 网 络 奉 代 ， 我 们 将 得 到 一 个 相对 多 的 可 调 参 数 

的 网 络 。 对 这 个 一 个 大 的 网 络 进行 训练 的 时 间 可 能 比 并 行 训 练 一 组 专家 的 时 间 长 。 
© 当 可 调 参数 数目 比 训练 数据 集 的 基数 ( 即 集 台 的 大小) 大 时 ， 过 氢 侣 {overfitting) 数 据 
的 风险 也 随 之 增 大 。 
无 论 如 何 ， 在 使 用 如 图 7-1 描述 的 委员 会 机 器 时 ， 我 们 期 望 分 别 训练 的 专家 收 钱 到 握 差 曲 面 
的 不 同 的 局 部 极 小 ， 但 整个 系统 性 能 通过 将 多 个 输出 进行 某 种 组 合 而 得 到 提高 。 





图 了 1 基于 筷 昼 平 多 的 委员 会 机 器 的 框图 


自 先 考虑 对 给 定数 据 集 合 洲 练 后 的 一 个 单独 神经 网 络 的 情形 。 让 x 代表 一 个 从 来 没有 溃 
缠 过 的 输入 向 量 ， 让 d 代表 -一 个 相应 期 望 输出 (代表 一 个 类 的 标 幼 或 者 数值 的 响应 ); x 和 4 
AAV FBO lo] Bt 和 随机 变量 D 的 实现 。 令 F(X) 代表 网 络 所 实现 的 输入 -输出 蝴 数 。 根 
据 策 2 草 提 人 旬 的 “ 偏 置 /方差 "困境 的 知识 ， 我 们 可 以 把 F(x) 和 条件 期 望 E[ DIX =x] MF 


活 差 分 解 成 偏 置 和 方差 分 量 如 下 : 
Eal (E) - ELD |X = x)) | = Bo(F(x)) + Vo (F(X)) (7.53 
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em 站 ee 


Ba ( F(x)) = (Eai FOO] - ELD IX =x]? (7.2) 

ii) Vea CR Ox) EJE: 
Vo (FCx)) = Ba lO F(x) - Egl F(x) Iy] (7.3) 
期 望 Ro SP RARA, SE OA UR CR RS EIA A Bb a 93) A AA BY 


初始 条 件 分 布 的 空间 。 

有 多 种 早 独 训练 图 7-1 中 专家 的 方法 , 也 有 多 种 合并 其 输出 的 方法 。 在 这 里 的 讨论 中 ， 
我 们 考虑 上 也 有 的 专家 网 络 有 相同 的 构 形 (结构 ) 的 和 情况， 和 但 它们 是 从 不 同 的 初始 条 件 并 始 训练 
的 。 在 图 7-1 Ami So aL ae RAA aE, 仅 用 简单 的 总 体 平均 器 (ensemble 
averager) 2 。 令 9 代表 所 有 初始 条 件 的 空间 。 令 (x) 代表 图 7-1 中 专家 网 络 的 输入 - 输出 函 
BE FRY 有 代表 性 "的 初始 茶 件 下 的 平均 。 和 式 (人 (7.1 类似 ， 可 以 写 出 


Ey |CF,CX) - ELD IX = x]? ] = ByCF(x)) + Vy CF(x)} (7.4) 
其 中 Bey ( F(x)) 是 定 久 在 空间 3¥ 的 偏 置 的 平方 ; 
By( F(x)) = (hol F(x) - E[D |X = xj) (7.5) 
M Ve (F(X)) 是 方差 | 
Vet F(x)) = Fel CF, (x) - Eyl PCx) 1]) | (7.6) 
HHE ky 是 对 空间 # 取 期 望 。 


从 空间 扫 的 定义 ,我们 可 以 将 它 看 作 初 始 条 件 所 在 的 空间 和 表示 为 久 ' 的 剩余 室 间 
(remnant space) 的 习 积 。 因 上 此， 再 次 通过 与 式 (7.1) 相 似 性 ， 可 忆 写 出 


kol (Fx) — ELD 1X =x] ] = Bo CE,Cx)) + Val F OD) ra 
其 中 Bo (F(x)) 是 定义 在 剩余 空间 %' 上 的 偏 置 平方 
Bo (F(x)) = (Eg [F(x ELD EX =x] (7.8) 
而 Voy CF (x) ARAL AA SE 
Voy CF (K)) = Eq LCF, (x) - Ea lF] (7.9) 
MSHS, FAY KE MARS Hy 
Eo | F,(x)] = Egl F(x)] (7.10) 
因此 随 之 可 将 式 (7.8) 重 写 为 下 列 等 价 形式 : 
Bg (F (0) = (Eg F(x)] - EID | X = xl)’ = Bal F(x)) (7.11) 


Be PREBRAT. DEPED Ve (F(X))。 由 于 随机 变量 的 方差 等 于 随机 变量 的 均 方 值 减 去 


EAM AREA. BT RSE SA 
Va (FR) = Eg LCF (x) ] - (Ex [FQ = Eg (F(x) ] - (Eo | F(x) 
(7.12) 
其 中 在 第 二 个 等 式 利用 了 式 (7.10)， 类 似 地 我 们 可 以 以 等 价 的 形式 重新 定义 式 (7.3): 
Vo CFi(x)) = Egl (F(x)Y ] - (Egl F(X)]Y (7.13) 


FERA F(x) FER P28 A EAA EK RE RS RKO, x) FER RS ND’ 
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ERA, PR 
Eg Fx) ] = Eg LCF CSD) | 
根据 这 个 不 等 式 ， 比 较 式 147.13) 和 (7.127， 和 立即 可 以 得 到 
Vo (F(x) < Fal F(x)) (7.14) 
根据 式 人 (7.11) 和 人 7.94， 我 们 可 以 作出 下 面 的 两 个 结论 : 
1. FRU 7-1 ALLA OE AA FO Ra EA PET AR 
络 的 函数 Fx) BS AG Ie] 
2 .总体 平均 负数 F(x) BA BDLF RR (x) 的 方差 。 
这 些 理论 友 规 指出 一 个 用 于 减少 委员 会 机 秀 产 生 的 总 误差 的 训练 案由 屁 由 不 同 的 初始 条 
e445 SU (Naftaly et al.,1997). PLANAR nei ei Roa, 使 用 它 的 理由 是 基 于 下 面 
的 基础 。 呈 要 尘 虚 单个 专家 ， 偏 置 的 钴 少 就 是 以 方 兰 为 代价 的 。 但是， 此 后 通过 对 初始 条 住 
RMP aR, TARS Fe eR ANE 
7.3 计算 机 实验 I 
在 关于 总体 平 均 方 法 的 计算 机 实验 中 ， 我 们 重新 回 到 前 面 三 章 考虑 的 模式 分 类 问题 。 问 
题 属于 两 个 有 重生 的 二 维 Gauss 分 布 的 分 类 问题 。 这 两 个 分 布 有 着 不 同 的 均值 向 量 和 不 同 的 
方差 。 人 分布 LES 的 统计 特性 为 
m = .0,0]’,o = l 
T RE RARER 
[2,0] ,o = 4 


Hz 
B-T a3 fp BY a Se FI 4-13 给 出 。 

这 两 类 被 假定 为 等 慨 率 的 。 畏 误 分 类 的 代价 假定 相同 ， 正 确 分 类 的 代价 假定 为 0。 在 此 
EME, (最 优 ) 贝 叶 斯 分 类 器 有 p, = 81.51% 的 止 确 分 类 率 。 这 个 计算 的 细节 已 经 在 第 4 章 
给 出 ， 

在 第 4 章 描述 的 计算 机 实验 路， 应 用 有 两 个 隐藏 神经 元 的 多 层 感 知 器 和 使 用 友 辐 传播 算 
法 训练 ， 我 们 能 得 到 将 近 80% 的 正确 分 类 率 ,， 在 这 个 实验 中 ， 我 们 将 学 习 一 个 如 下 组 成 的 
Be it HL AE 

+ 10 个 专家 。 

© 每 个 专家 出 一 个 有 具 石 两 个 陆 藏 单元 的 多 层 感知 顷 组 成 。 

所 有 的 专家 都 应 用 反 向 传播 算法 进行 单独 训练 。 算 法 中 使 用 的 参数 是 学 习 率 参数 1 和 =0.1， 
动量 常数 a = 0.5, 

训练 样本 的 太 小 是 500 个 模式 。 所 有 的 专家 在 同一 个 数据 集 上 训练 ， 只 不 过 它们 的 初始 条 件 
不 同 。 特别 地 ， 初 始 权 值 和 疯 佳 是 随机 地 从 区 间 [ - 1,1] 按 均匀 分 布 随机 挑选 的 : 

表 37-1 汇 总 10 个 专家 通过 使 用 测试 集 的 500 个 借 式 训练 后 的 分 类 性 能 。 仅 靠 简单 地 提 
取 表 ?了 -1 中 10 个 续 果 后 算术 平均 而 得 到 的 正确 分 类 率 为 p, ,= 79.37%. AHH, WA 
性 平均 方法 ， 即 简单 地 将 各 个 专家 的 输出 相 加 后 计算 正确 分 类 率 ， 我 们 得 到 诗 果 PP 。 = 
80.27% 。 这 个 结果 比 pi 提高 了 0.9 个 百分点。 这 种 改进 对 所 有 的 实验 来 说 都 是 存在 的 。 
分 类 结果 是 应 用 32 000 个 测试 模式 计算 出 来 的 。 
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总 结 这 个 实验 的 结果 ， 我 们 可 以 说 : LR ah ee ge SR), REINA E 
的 数值 输出 相 加 产生 委员 会 机 器 的 总 输出 ， 然 后 作出 决 党 ， 由 此 提 贞 分 类 性 能 。 
表 7-{ 在 委员 会 机 器 中 使 用 的 单个 专家 的 分 类 性 能 








TF TF WE AY Ey op By 
ii Wetl —_ 90.65 

Net? 76.9! 

Net3 80.06 

Netd 80.47 

Nets RO .44 

Net6 76.89 

Net? 80.55 

Nets Bi).47 

Ved 76.91 356 | 
Net10 80.38 


7.4 推举 


QUIRES PEAS, ESR ARTO OAMW NBA SILA ATE. HES A 
BCP R AIR ABA. EBT EEN SBR, Ae ETRE 
集 上 训练 ， 在 训练 的 过 程 中 ， 它 们 是 由 于 初始 条 件 不 同 而 导致 不 同 的 。 与 此 相反 ， 推 举 
机 瘟 中 的 专家 各 目的 训练 集 是 完全 不 同 的 分 布 ; 它 是 能 被 用 来 提高 任何 学 当 算 法 性 能 的 一 
个 通用 方法 。 

推举 ` (boosting) 能 用 一 种 基本 十 同 的 方法 实现 ， 

1. 通过 过 滤 推 兴 。 这 种 方法 涉及 到 用 一 个 弱 学 习 算 法 的 不 同 版 本 过 滤 训 练 样本 。 它 假 
定 有 大 量 { 理 论 上 无穷 ) 样 本 可 用 ， 这 些 样本 在 训练 过 程 中 有 些 被 抛弃 ， 有 些 被 保留 。 这 个 方 
法 比 田代 两 种 方法 的 一 个 优越 之 处 在 于 它 共 有 较 小 的 存储 常 求 。 

2. 通过 子 质 样 推举 。 第 二 种 方法 用 到 一 个 固定 大 小 的 训 绒 样本 集合 。 训 练 这 程 中 这 些 
样本 根据 一 个 给 定 概 率 分 布 “ 重 新 抽样 "。 根 据 固定 的 训练 样本 计算 误差 。 

3. 通过 重新 加 权 推 淹 。 第 三 种 方法 也 用 到 一 个 同 定 六 小 的 训练 样本 集合 ， 但 它 假定 愉 
学 习 算 法 能 接收 "加权" 后 的 样本 。 根 据 加 权 后 的 样本 计算 误差 。 

在 这 一 厄 将 描述 两 种 不 同 的 推举 算法 。 其 中 之 一 归功 于 Schapire(1990), ETHE L 另外 的 
— Fp AS ( AdaBoost}, VOTH Freund and Schapire( 19964, 1996b) ， 属 于 方法 2。 


通过 过 泪 推 举 


TE Schapire( 1990) 描 述 的 推举 ， 共 基本 思想 植 根 于 一 个 与 分 布 无 关 的 或 可 能 近似 正确 
的 (probably approximately correct, PAC) 学 习 模 型 。 通 过 在 第 二 和 章 讨 论 过 的 PAC SY, RNA 
户 一 个 概念 (concept) 只 是 某 范例 (instance) 域 内 的 一 个 布尔 函数 ， 该 范例 域 包括 我 们 感 兴趣 
ATA IIE objec) 的 编码 。 在 PACAR, 一 个 学 习 机 絮 通 过 随机 选择 概念 的 样本 的 其 
础 上 ， 去 确认 一 个 未 知 的 二 值 概念 。 更 进一步 地 说 ， 学 习 机 器 的 目 奈 是 找到 一 个 错误 率 
最 多 为 e 的 假说 或 者 预测 规则 ，e 为 什 意 小 的 正 数 ， 并 且 它 对 于 所 有 输 和 分布 都 是 一 致 成 
WA. FEF uk, PAC 学 习 模 型 又 称 为 强 学 习 列 型 (strong leaming model)。 因 为 样本 的 随机 性 (357) 
质 ， 那 么 极 有 可 能 由 于 一 些 高 度 不 具有 代表 性 的 样本 存在 而 不 能 学 到 有 关 未 知 概念 的 任 
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何 东 西 。 因 此 我 们 要 求学 习 模 境 只 在 以 概率 1 -人 找到 术 知 概念 的 良好 近似 后 继续 ， 这 里 
是 一 个 小 的 止 数 。 
在 PAC 学 习 模 型 中 ， 有 一 个 变形 称 为 弱 党 习 模 型 (weak leaming model), EXT FY RA 
概念 的 要 求 太 大 地 放松 了 。 现 在 学 习 届 器 被 要 求 以 稍微 小 于 1/2 的 误差 率 去 发 现 一 个 假说 。 
H- :个 假说 对 于 每 一 个 例子 以 完全 随机 的 方式 去 猜想 :一 个 二 值 的 标号 时 ， 它 错误 和 正确 的 概 
率 是 相同 的 。 也 就 是 说 ， 它 得 到 一 个 怡 好 2 ARES, A, MRS SUR 
表现 只 比 随机 猜想 仅 略 好 - -点 能 可 学 习 的 概念 是 Keams and Valiant{1989) 引 入 的 ， 他 们 所 
出 了 假说 推举 问题 ， 它 在 下 而 的 问题 中 体现 出 来 : 
弦 学 习 和 强 学 习 二 者 概念 等 价 吗 ? 
Mie, Te ASA STARR, RA ES? 或 许 是 惊奇 的 ， 这 个 问题 
H Schapiret 1990) 肯 年 地 回答 了 。 其 证 明 是 构造 性 的 ， 特别 地 ， 一 个 直接 将 弱 学 习 模 型 转化 
克 唱 学 习 模 型 的 算法 锌 设 计 出 来 。 它 的 取得 是 通过 改变 样本 的 分 布 使 得 由 一 个 幸 学 习 模 型 建 
立 一 个 强 学 习 模型 ， 
在 基于 过 滤 的 推举 中 ， 委 员 会 机 器 由 三 个 专家 或 子 假说 组 成 。 用 于 训练 它们 的 算法 称 为 
iE A E (boosting algorithm)。 这 三 个 专家 可 随意 标 为 “第 一 "、“ 第 二 ”和 “第 三 ”。 这 三 个 专家 
各 目 训 练 如 下 : 
1. BP RARE N 个 样本 上 训练 。 
2. RUNS Pe a at PT aE Sb} PRES 
= WAE: 这 实际 是 模拟 一 个 随机 猜测 ， 

。 假如 结果 是 正面 ， 则 新 模式 通过 第 一 个 专家 ， 并 抛弃 被 正确 分 类 的 模式 ， 直 到 遇 到 
一 个 被 错误 分 类 的 模式 为 止 。 这 个 错误 分 类 模式 被 加 人 到 第 二 个 专家 的 训练 集中 ， 

* 假如 结果 是 反面 ， 所 做 的 愉 好 相反 。 特 别 地 ， 将 新 模式 通过 第 一 个 专家 ， 抛 弃 不 能 
锌 下 确 分 类 的 模式 ， 直 到 过 到 一 个 能 被 正确 分 类 的 模式 为 止 。 正 确 分 类 的 模式 被 加 
人 到 和 审 二 个 专家 的 训练 集中 。 

. 继续 这 个 过 程 ， 直 到 Ni 个 样本 被 第 一 个 专家 过 滤 ， 这 个 过 滤 后 的 样本 组 成 第 二 个 

专家 的 训练 集 。 

依据 抛 百 币 过 程 ， 可 以 确保 假如 第 一 个 专家 在 第 二 个 样本 集 上 测试 ， 它 将 有 172 的 误差 
率 ， 换 本 话说， 用 来 训练 第 二 个 专家 的 第 二 个 舍 有 N 样本 的 集合 和 第 一 个 用 来 训练 第 一 个 
专家 的 N 样本 的 集合 具有 完全 不 同 的 分 布 。 用 这 种 方法 ， 第 二 个 专家 被 强制 学 习 和 第 一 个 
专家 的 分 布 完 全 不 同 的 分 布 。 

3. 一 旦 第 站 个 专家 通过 正常 方式 训练 完毕 ， 供 第 三 个 专家 使 用 的 第 三 个 训练 集 将 通过 

© 将 一 个 新 的 模式 通过 专家 1 和 专家 2。 假 如 这 两 个 专家 的 决策 一 致 ， 则 抛 守 该 模式 ， 

否则 该 模式 馈 加 人 人 到 第 三 个 专家 的 训练 集中 ， 

© 继续 这 个 过 程 ， 直 到 NN, 个 样本 被 第 一 个 专家 和 第 二 个 专家 所 共同 过 滤 。 这 个 被 过 

滤 得 到 的 样本 集 组 成 第 三 个 专家 的 训练 集 。 
这 个 二 步 讨 滤 过 程 妃 图 7-2 所 示 。 
令 M 代表 一 个 样本 集 的 数目 ， 该 样本 集 必须 被 第 一 个 专家 过 滤 以 便 得 到 供 第 二 个 专家 
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具有 和 专家 ] 和 专家 2 
学 习 的 样本 集 不 同 的 
统计 性 质 的 六 ,样本 





AA RR | 

No 个 样本 | 训练 后 的 SO] PE 
FR] 不 同 的 统计 性 
AN 个 样本 


a} 专家 | 完成 的 过 滤 样 本 VFR 1 穆 志 家 2 完成 的 过 滤 拌 本 
图 7-2 通过 这 滤 的 推举 示意 图 


HON, MERU, DERN, BN, NM 取决 于 第 一 个 专家 的 泛 化 误差 率 。 邻 N, 
代表 一 个 样本 集 的 数目 ， 该 样本 集 必须 被 第 一 个 和 第 二 个 专家 所 具 同 过 滤 而 得 到 供 第 三 个 专 
家 训练 用 的 N ERR. AA N 个 样本 需要 用 来 训练 第 一 个 专家 ， 总 共 需 要 用 来 训练 委员 
会 机 姻 的 训练 集 的 大 小 为 w = N + N+ AN 但 计算 的 代价 是 某 于 3N, MEA, BON, E 
好 是 用 来 分 别 训练 三 个 专家 的 样本 的 数目 。 委 员 会 机 器 需要 一 个 很 太 的 样本 集 供 其 操作 ， 但 
仅仅 是 该 样本 集 的 一 个 子 集 被 用 来 实施 真正 的 训练 ， 从 这 一 点 上 来 说 ， 我 们 可 以 说 这 里 描述 
的 推举 算法 确实 是 “聪明 "的 。 

另 一 点 值得 注意 的 是 ， 通 过 第 一 个 专家 阅 络 的 过 滤 操 作 和 通过 第 一 和 第 二 个 专家 联合 的 
过 滤 操 作 ， 使 得 第 二 个 和 第 三 个 专家 网 络 能 分 别 集中 学 习 分 布 中 “难以 学 习 "的 部 分 。 

fem Al schapire(1990) 提 出 的 推举 算法 的 理论 推导 中 ， FAR ARRIBA SOLS 
对 于 未 学 习 过 的 测试 模式 的 性 能 。 特 别 地 ， 一 个 测试 模式 被 提交 给 委员 会 机 器 ， 假 如 第 一 个 
和 第 二 个 专家 各 自 的 决策 相 一 致 ， 则 使 用 这 个 类 的 标 届 。 否 则 ， 使 用 第 三 个 专家 发 现 的 类 的 
te. HÆ, Drucker et al,(1993,1994) 纵 出 的 实验 工作 确定 将 三 个 专家 各 自 的 输出 相 加 
将 会 产生 比 表决 更 好 的 性 能 。 比 如 说 ， 
在 光学 字符 识别 (OCR) 问 题 中 ， 相 吉 P 
运算 公公 只 对 一 个 专家 “数字 0" 的 输出 m rs 
AAA, Sb AY 9 TRF A HE ti Ee Ie | vo 
FRY o Ka 

假如 三 个 专家 ( 即 子 假说 ) 在 它们 gee TRE 
和 名 日 训练 的 分 布 上 误差 率 为 < 1/2; m ra SE SE ME BS 
也 就 是 说 ， 它 们 三 个 都 是 弱 学 习 模型 。 ” Sl) = 36 - 2e 
在 Schapire( 1990) 中 证 明 委 员 会 机 器 的 二 wo 
总 误差 率 以 > 

gle) = 3e° — 28 (7.15) 

HR, A gfe) 相 对 的 图 形 如 图 a ee Ô a1 0.2 0.3 0.4 0.5 
所 示 。 从 该 图 中 ， 我 们 可 以 看 出 界 比 
ARRAK 小 得 和 多。 通过 递归 运用 图 7-3 式 (7.15} 通 过 滤波 推举 的 图 形 
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ERRA, ATIRAR EIEE D. -个 弱 学 习 模 地 ， 其 性 能 仪 仅 比 随机 猜想 好 一 点 ， 被 
竺 换 成 一 个 强 学 习 模 型 。 在 这 个 意义 上 我 们 可 以 说 器 学 习 模 型 和 弱 学 习 模 型 确实 是 等 价 的 。 
EE 

通过 过 渡 推 举 的 一 个 实际 的 局 限 在 于 它 经 常 需要 大 量 的 训练 样本 。 这 种 局 有 限 能 通过 利用 
万 外 一 种 称 为 自 举 (AdaBoost) 的 推 从 算法 克服 (Freund and Schapire, 1996a , 1996b ) ， 它 属于 重 
BARREN TES. AACR AREAL EE PAS OM ARR, 最 重要 的 是 ， 它 允许 训练 数据 重 
用 。 

相 青 过 过 证 异 法 推举 一 梓 ， 目 举 方法 也 用 于 弱 学 习 模 型 。 这 个 新 方法 的 目的 是 找到 一 个 
对 给 定 的 带 标号 样本 的 分 布 2 具有 低 误 盖 率 的 最 终 映 射 亢 数 或 假说 。 它 在 两 个 方面 和 其 他 的 
推举 不 间 。 

© 目 举 自 拓 应 调节 由 弱 学 习 模 卉 返回 的 弱 息 设 误 差 ， 这 就 是 算法 名 称 的 由 来 。 

* 目 学 性 能 的 界 只 取决 于 弱 学 习 模型 对 学 习 过 程 中 实际 产生 的 那些 分 布 的 性 能 . 

目 举 操作 如 下 。 对 于 迭代 n， 推 举 算 法 提供 在 训练 样本 了 上 分 布 为 多 ,的 弱 学 习 模 卉 。 作 
为 啊 应 该 给 学 习 异 型 计算 一 个 假说 守 , ，X 一 Y， 它 能 让 确 地 分 类 训练 样本 的 一 部 分 。 误差 通 
过 分 布 多 , 来 度量 。 这 个 过 程 持续 了 次 达 代 ， 最 后 推举 机 器 将 这 些 假 涪 争 , F, F, SHE 
一 个 最 终 的 假说 字 。 

AS TTR RAR n 上 的 分 布 ,， 和 (2) 最 终 的 假说 第， ， 使 用 表 7-2 小 结 的 简单 过 程 。 
MBAS, 是 训练 样本 了 上 的 均匀 分 布 ， 表 示 为 

a(i) = > 对 于 所 有 的 ; 
给 证 算法 在 适 代 n AD, ABS, ， 如 果 罚 假说 ,能 正确 分 类 输入 向 量 x ， 则 下 一 
个 分 布 多 ,, ;中 对 例子 i 的 权重 乘 以 一 个 数 有 BE [0,1]; 否则 ， 权 值 不 变 。 然 后 通过 将 权 值 除 
以 归 一 化 常数 Z 而 重新 归 一 化 。 实 际 上 ， 训 练 集 5 总 被 许多 先前 的 弱 假说 正确 地 分 类 的 “ 容 
易 的 样本 赋 子 较 低 权 值 ， 而 被 经 常 错误 分 类 的 “ 难 " 的 样本 被 赋予 了 较 高 的 权 值 。 因 此 自 举 
算法 将 更 多 的 权 值 集中 到 看 起 来 最 难 分 类 的 样本 上 ， 

至 于 最 终 假说 Fw ， 它 是 根据 弱 假 说 FF, ,，…, 包 ， 加 权 表 决 的 方式 ( 即 加 权 线 性 闵 值 ) 计 
算 的 。 也 就 是 详 ， 对 于 一 个 给 定 的 输入 向 量 x， 最 终 假 说 多 , 输出 的 标号 d 使 得 预测 该 输出 
标号 的 弱 假 说 的 加 权 求 和 为 最 大 。 假 说 家 , 的 权 值 定义 为 log(118, )， 结 果 是 较 大 的 权 值 被 赋 
子 较 低 误 差 率 的 假说 。 

目 举 的 一 个 重要 理论 性质 如 下 面 定 理 所 述 (Freund and Schapire, 1996a) . 

假如 一 个 弱 守 习 模 型 ， 当 被 自 举 调用 时 ， 产 生 误 差 为 ae,…,sr 的 假说 ， 其 中 自 举 算 
ELIRA n IRE e ERA 

m= > Ba) 
P(x Jed 


ike, <1/2, HS y, =12-e 。 那 名 最 终 假 说 误 盖 的 如 下 上 界 成 立 ， 
了 


a | (i: Cx.)  d,| < [[ v1 -47 < cxp(-2 SY) (7.16) 


j=l 
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BHM E 201 
EEE A RA EPS BRAR EBA A E 1/2 ARI — ANRE, MR 
AF MUIR SES ee FSF 0。 (BE, ATERA MA AE CAREY 
定 小 ， 在 Freund and Sechapiref 1996a) 中 给 出 的 实验 表明 阿 点 。 惠 一 ， 训 练 误差 的 理论 异 经 芝 
是 很 弱 的 ; 第 二 ,汉化 误差 人 自问 于 比 该 理论 暗示 的 误差 好 得 多 。 
# 7-2 给 出 用 于 一 个 二 值 分 类 问题 的 自 举 的 小 结 。 
表 7-2 自 举 方法 小 结 
RA: 训练 样本 ix, dt oa 
N 个 标记 样本 的 分 布 匀 
弱 学 避 模 地 
整数 TERE AIR 
Hie: 对 于 所 有 的 i, BS, Ci} = UN 
计算 对 于 上 =1,2.…, 了 了 ， 进 行 下 面 的 过 程 ， 
1. ASS SUM, Se ee 
2. 返回 假说 党 ，: XY 
3. RS, 的 谋 差 


4. REE B, =< /(l—-<,} 
5. Bay, : 
Br He (ne) = dj 
l 否则 
其 中 Z, BIH OEE PS i SE). 
ik: 最 终 的 假说 是 


h : 
By hae = — w | 


Fix) = are max `> log 5- 


dE aed 


4H) RERIZE A (fp 5) M> 2H, EEPE ER, A AREOLA A I is SB 
率 是 1/M, th 1/2 要 小 。 在 这 种 情况 下 为 了 推举 能 使 用 任何 比 随 机 狂想 好 一 点 点 的 假说 ， 我 
们 就 需要 改变 算法 和 " 弱 学 习 "算法 是 什么 的 定义 。 使 用 改变 的 方法 在 Freund and Schapire 
(1997) LA Schapire( 1997) 中 描述 。 


误差 特性 


TF Breiman 《1996b}) 中 报告 的 自 举 方法 的 实验 表明 ， 当 训练 误 莽 和 测试 误差 作为 推举 过 
代 次 数 的 函数 时 ， 我 们 经 常 发 现 当 训练 误差 实质 上 减 小 为 0 后 ， 测 试 误 差 继 续 下 降 。 这 种 1362 
班 象 如 图 7-4 所 显示 。 对 于 通过 过 滤 的 推 伦 ，Drucker et al. (1994) BS IRFU RUS 
FR 

根据 我 们 所 知道 的 单个 神 绎 网 络 的 一 般 特 性 来 说 ， 图 7-4 Apo RES AIT. 
回想 第 4 章 ， 在 用 反 向 传播 算法 训练 多 层 感 知 理 时 ， 测 试 ( 确 让) 数据 的 误差 先 减少 ， 到 达 一 
个 最 小 值 ， 然 后 由 于 过 拟 合 而 上 升 ; 可 以 参看 图 4-20。 图 7-4 所 示 的 情况 是 很 不 同 的 ， 随 着 
网 络 通过 不 断 的 训练 变 得 越 来 越 复 森 ,推广 误差 持续 下 降 。 这 种 现象 似乎 和 ”0Oecam 剃 刀 原 
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BR’ RAMS, BRER, — Sed BL ae ae 
尽 可 能 地 简单 ， 以 便于 达到 一 个 好 的 这 化 
性 能 。 

在 Schapire et al. 1997) 中 ， 给 出 对 这 个 
用 于 腿 举 的 现象 的 一 种 解释 。 那里 提出 的 
att Bh) Be AA ge, Sip AP TEAL 
POE AZ RE, PRES BE Vil BRR 
Ze, WRB ASS oP 8 W 43 AE (confidence). 
PEEN AY SP air fg AN TE Se A Ff] BL ZV 9 
KA; 广 持 向量 机 已 经 在 前 一 章 考 虑 。 特 
别 她 ， 比 如 分 类 边界 定义 为 赋予 属于 那个 
样本 的 正确 标号 的 权 值 和 赋予 任 一 不 正确 
标号 的 最 大 权 但 的 差 。 从 这 个 定义 ， 容 易 
看 出 边界 是 区 域 [ - 1，1] 内 的 一 个 数 ， 并 量 
如 宁 一 个 样本 能 被 正确 分 类 的 充分 必 上 昌 条 
件 是 它 的 边界 是 正 的 。 因 此 Schapire 等 人 证 
明 在 图 7-4 中 观察 到 的 现象 确实 和 产生 表决 
分 类 误差 的 训练 样本 的 边界 分 布 有 关 。 需 
要 再 次 强调 的 是 Sehapire et al. (1997) 给 出 的 
边界 分 析 只 是 针对 自 举 的 和 不 适用 于 其 他 
推举 的 算法 。 


7.5 计算 机 实验 本 


在 这 个 实验 中 ， 我 们 将 运用 通过 过 滤 
的 推举 算法 解决 一 个 相当 难 的 模式 分 类 任 
务 。 作 类 问题 是 二 维 的 包含 非 咏 的 决策 区 
域 ， 如 图 7-5 所 示 。 一 类 模式 由 位 于 标号 为 
G 的 区 域内 的 数据 点 组 成 ， 另 外 一 类 模式 
由 位 于 标号 为 %, 的 区 域内 的 数据 点 组 成 。 
要 求 设 计 一 个 委员 会 机 器 ， 用 于 决定 一 个 
MiB RFC, MAE, o 


错误 率 





测试 ( 汉化 ) REY 


推举 选 代 次 数 


图 7-4 自 举 算法 的 概念 化 误差 特性 





图 7-s 用 十 推举 试验 的 模式 构 形 


用 于 解决 这 个 何 题 的 委员 会 机 器 由 三 个 专家 组 成 。 每 一 个 专家 包含 由 两 个 输 人 人 节点、 五 
个 隆 蕊 神经 元 和 两 个 输出 神经 元 组 成 的 2~-S$->2 多 层 感知 器 。 应 用 反 向 传播 算法 完成 训练 。 
图 7-6 显示 用 来 训练 三 个 专家 的 数据 散布 图 。 图 7-6a 所 示 数 据 用 于 训练 专家 1。 图 7-6b 所 
示 数 据 是 经 过 在 专家 1 完成 训练 后 过 涨 得 到 的 ; 这 些 数据 用 于 训练 专家 2。 图 7-6c 所 示 的 数 
据 是 由 专家 1 和 专家 2 所 共 辣 过 注 后 用 来 训练 专家 3 的 。 对 于 每 一 个 专家 来 说 ， 训 练 样本 的 
大 小 都 是 w = 1000 个 模式 。 仔 细 检 查 这 三 个 图 我 们 可 以 观察 到 : 

> 图 7-6a 中 用 于 专家 1 的 训练 数据 是 均匀 分 布 的 。 
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。 图 7-6b 中 用 专家 2 的 训练 数据 ， 显 示 在 标 有 起 和 B 的 区 域内 数据 点 的 集中 ， 这 对 于 
专家 1 分 类 来 说 似乎 是 很 困难 的 。 在 这 两 个 区 域内 的 数据 点 的 数目 等 于 被 正确 分 类 
的 点 的 数目 。 

* 图 7-6c 中 用 于 专家 3 的 训练 数据 ,显示 数据 点 更 加 集中 ， 看 起 来 对 于 专家 MSR 

2 分 类 来 说 者 是 困难 的 。 








c) 


图 7-6 推举 的 计算 机 试验 中 用 于 专家 训练 的 样本 散布 加 
a) 专 家 1 了 专家 2 0c) 专家 3 

图 7-7a、7-7b、7-7c 显示 专家 1 、 专 家 2 和 专家 3 各 自 形成 的 决策 边界 。7-74 显示 通过 
将 三 个 专家 输出 进行 简单 相 加 而 形成 的 总 体 决 策 边 界 。 注 意 ， 属 于 专家 1 和 专家 2 的 决策 区 
域 7-7a 和 7-7b 之 则 的 差异 定义 用 来 训练 专家 3 的 图 7-7c 的 训练 数据 点 的 分 布 。 

三 个 专家 对 于 测试 数据 正确 分 类 的 概率 是 : 

专家 i: 75.19% ， 专 家 2: 71.44%, BRI: 68.90% 

整个 委员 会 机 器 的 正确 分 类 概率 是 91.79% ， 它 是 用 32 000 个 模式 的 测试 数据 计算 得 到 |365| 
的 。 图 7-74d 所 示 的 三 个 专家 的 推举 算法 建立 的 总 体 决 策 边 界 ， 进 一 步 证 明 它 的 和 让 好 分 类 人 竹 
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7.6 联想 Gauss 混合 模型 


从 本 节 开 始 的 本 章 第 二 部 分 我 们 研究 第 二 类 委员 会 机 器 ， 即 动态 结构 。 用 在 这 里 的 术语 
“动态 "是 指 专家 的 知识 整合 是 在 输 人 信和 号 的 参与 作用 下 完成 的 。 

为 了 开始 我 们 的 讨论 ， 考 虑 一 个 组 合 网 络 ,， 在 其 中 学 习 过 程 是 通过 将 和 学习 的 目 组 织 和 是 
督 形式 以 无 颖 方式 融合 在 一 起 处 理 的 。 各 个 专家 从 技术 上 进行 监督 学 习 ， 把 它们 各 上 站 的 往 出 
整合 以 模拟 期 望 响 应 。 但 是 各 个 专家 也 进行 自 组 织 学 习 ; 即 它们 自 组 织 地 发 现 一 个 好 的 输 人 
空间 的 分 审 ， 以 便于 每 个 专家 能 很 好 地 模拟 它 自己 的 子 空间 ， 而 且 和 作为 一 个 完整 的 组 它们 能 
很 好 地 模拟 输入 空间 。 

在 刚才 "描述 的 学 习 方 案 中 ， 有 一 点 和 前 面 三 章 讨论 的 学 习 方 案 不 同 ， 那 就 是 假 俊 用 一 个 
特殊 的 模型 产生 训练 数据 。 


概率 产生 模型 
为 了 确定 概念 ， 考 虑 一 个 大 妇 问 题 ， 其 中 一 个 回归 量 x 产生 用 随机 变量 D 表示 的 啊 应 ; 
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这 个 随机 标量 的 一 个 实例 用 d 米 表 示 。 为 了 简化 表达 ， 并 不 失 一 般 性 ， 我 们 米 用 -个 慰 量 
形式 的 回归 我 们 假设 响应 d 的 产生 订 特 下列 的 概率 模型 (Jordan and Jacobs, 1995). 

1. 输入 向 量 随机 地 从 某 一 先 验 分 布 中 选取 ， 

给 定 x AE ee at a”, ESR AE Pk bx a” ere SE eT, Ee 
We k AEL. 

3. TAM k, k=1,2,70, K, RAW d Ax RREA, RHA POR RS 
Eps Ep TADY Gauss PADLO ABBR ee, ERYAA 0, frst AANE 1- 

Ele j= 0 X FARY k (7.17) 
Fil varle, | =! 对 于 所 有 的 天 (7.18) 
第 3 点 作出 单位 方差 的 假 没 只 是 为 了 讲解 的 简洁 性 。 一 般 地 ， 每 -个 专家 都 有 能 从 训练 数据 
中 学 习 的 - -个 不 同 的 输出 上 方差 , 

给 定 x 和 某 个 参数 向 量 w, k=1,2, 0, K, D 的 概率 产生 取决 于 条 储 概 率 P(D = 
dl1x，w )。 我 们 并 不 要 求 刚 才 描 述 的 概率 产生 模型 必须 是 对 物理 现实 的 一 个 直接 的 对 应 ， 
相反 ， 我 们 仅仅 要 求 在 那里 包含 的 概率 决策 能 表示 一 个 抽象 模型 ， 它 以 递增 的 精确 度 确 定 一 
个 非 线性 流 形 上 响应 d HORE, SPIER REV RAR BAY RK 
(Jordan, 1994} . 

根据 这 个 你 型， 对 应 于 标号 二 的 六 个 选择 ， 响 应 五 能 产生 天 个 不 同 的 方法 。 因 此 ， 在 
给 定 输 入 向 量 x 的 情况 下 ， 产 生 响 应 D = 4 的 条 件 概率 等 于 


P(D = d\x,9") = 3} PCD = = d | x,wy’)PCk | x, a™) (7.19) 


HY, ORF ERM HBKAE, 代表 a fall if ii 的 结合 。 在 a" 和 wi PREI OE 
用 来 区 分 产生 模型 的 参数 和 下 面 要 讨论 的 混合 专家 异型 的 参数 的 。 


oe RARE 


考虑 如 图 ?3-8 所 示 的 了 网络 设置 ， 称 为 混合 专家 (rmixture of experts, ME) A+, BPH Mb, 
蕊 由 下 个 册 专 家 网 络 或 是 简称 专家 的 监督 模块 组 成 ， 并 且 有 一 个 串门 网 (gating network AYE 
台 单 元 ， 在 专家 网 络 由 充当 协调 者 的 舟 色 。 候 定 不 同 的 专家 根据 前 面 所 讲 的 概率 产生 模型 在 
输入 空间 不 同 的 区 域 上 工作 得 最 好 ， 这 就 需要 门 网 协调 。 
将 回归 问题 假定 为 是 标量 的 ， 每 一 个 专家 网 络 包 含 一 个 线性 滤波 器 。 图 7-9 构成 专家 k 
的 单个 神经 元 的 信 导 流 图 ， 因 此 ， 专 家 天 产生 的 输出 是 输入 向 量 x 和 该 神经 元 突 触 权 值 向 量 
W, HAR, RIRA 
Yy = WX, k = 1,2,“,K (7.20) 
IRA BAA KAHR, SS ARR RA Ee. 图 7-i0a 是 门 网 的 结 
构图 ， 图 7- 10b 是 在 该 网 络 中 神经 元 上 的 信号 流 图 。 和 专家 不 一 样 ， 门 网 的 神经 元 是 非 线 性 
AY, EE IE AR 
B = nA. k= 1,2.°,K (7.21) 


Don U; y 
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图 7-9 构成 专家 卡 的 单个 图 7-10 
线性 柿 经 元 的 信号 流 图 JAF INRA eRe Re De Ae ICE 
eM, Au, BSAC x AZARAE a, 的 内 积 ， 妈 
u = AX, k = 1,2, e, K (7.22) 


式 (7.21) 归 一 化 的 指数 变换 可 以 看 作 logistic HAN Se AE. CRIT AAR, H 
古 一 个 选取 最 大便 的 " 胜 着 全 得 运算 的 可 微分 推广 。 由 于 这 个 原因 ，(7.21) 的 激活 函数 称 为 
软 最 大 (sofimax)(Bridle,1990a)。 注 意 由 于 m 对 输入 x 的 线性 依赖 使 得 门 网 的 输 中 是 x 的 一 
个 非 线 性 函数 。 
对 于 门 网 必用 的 概率 解释 ， 我 们 可 也 认为 筷 是 一 个 分 类 器 ， 将 输入 问 量 x 映射 到 多 项 概 
4 (multinomial prohabiity) ， 以 便 不 同 的 专家 将 能 驶 匹配 期 鹿 的 啊 应 (Jordan and Jacobs, 1995)。 
最 重要 的 是 、 将 " 软 最 大 "用 作 门 网 的 激活 遇 数 能 确保 这 些 概 率 满足 以 下 要 求 ; 
Osel 4 TEA BY k (7.23) 


和 >) = | (7.24) 
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令 y ARAMADAN x TS k TERK. AI ME Bee a E 


= 2 Eryk (7.25) 
其 中 ， 正 像 前 面 指 出 的 那样 ，g; dE xh SSPE OR, Me OEE ERA E k, 
单个 输出 +, 可 以 看 作 随 机 变量 D HRE, RRX 


E[D\|x,k] = ¥, = WX, k = 1,2,°,K (7,26) 
用 pj aD 的 条 件 均 值 ， 可 以 写成 
Le = yi, k= 1,2,.…,K (7.27) 
DAA ZNIE e 的 方 凑 一 样 。 因 此 根据 式 (7.18)， 可 以 写 出 
var D | x,k| = 1, k = 1,2,°°°,K (7.28) 


当 给 定 输 入 问 量 x 和 选取 概率 产生 模型 的 第 大 个 规则 ( 即 专 家 OS, DARTER AAN 
以 描述 为 

i 
其 中 8 表示 门 网 的 参数 和 ME 模型 中 那些 专家 的 参数 的 参数 向 量 。 给 是 x, D KAS IE p 
数 是 概率 密度 本 数 | 户 (dx 的 | 的 混合 ， 它 的 混 侣 参数 由 门 网 决定 的 多 项 概率 给 出 。 国 
此 可 以 写成 


K | ] 2 
万 (42 | x,0) = 24 bifold | x,%,8) = Tan >) grexpl - ghd y) (7.30) 


(7.30) F324 tp BRA 28 Gauss 混合 模型 (associative Gaussian mixture model}, 4ER% 
想 的 对 应 物 是 传统 Gauss 混合 模型 {Titterington et al. , 1985; McLachlan and Basford, 1988), ， 这 在 
mS FA BR. —“P RA SOK SE) A] CARE THARP u 和 混合 参 
We, 是 非 固 定 的 ; WR, EMA A Pe x eRe, F0(7.30) RAB Gauss 混合 模型 可 以 
Re HEPES. Gauss 模型 的 推广 。 

图 7-8 PUR ME 模型 假定 通过 训练 得 到 恰当 调整 ， 则 其 重要 方面 是 ， 

1. 给 定 xx 和 概率 产生 模型 的 规则 成立， 第 上 个 专家 的 输出 x 提供 代表 期 望 响 应 DD 的 
随机 屋 量 的 条件 均值 的 一 个 恪 计 。 

2. 门 网 的 输出 2, 定 艾 在 单独 从 x 获 得 知识 的 基础 上 专 朋 不 的 输出 匹配 值 吕 = d 的 多 项 
BE, 

A EURE] Ox, d;) ha A730) eo ip LE, 问题 就 是 要 以 最 优 的 方式 学 
习 条 忻 均值 u =v, 和 混合 参数 g ,下 = 1,2,… ,下 ,使 得 方 (dx, 的 提供 负责 产生 训练 数据 的 
环境 的 固有 概率 密度 明 数 的 良好 估计 。 

例 7.1 回归 曲面 考虑 一 个 包含 两 个 专家 和 一 个 由 g 和 g; 表示 两 个 输出 的 门 网 的 
ME 模型 。 输 出 g) 定义 为 (参看 式 (7.21)) 


f(d 1x,k,0) = (-3id-y)), k=1,2,.,K (7.29) 


é1 = expl uj) + exp(u,) ~ 14 exp(- (u -mI 


Sea Aa RA MRANA., 我 们 可 以 写成 


Hg = KA, , k = 1,2 


(7.31) 
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从 而 重新 将 等 式 (7.31) 写 成 


ee 种 汪汪 汪汪 
o> Dy expl- x (mm ~ a)) a 


lI Ray oh--- aa e 是 


l 
g=l-g = 


1 + expl- x (a ~ a,)) 

AW, 21, 22 部 是 logistic MAH, (BA A Sl, gl BWA [el et (a, - a, DB TT 
HE., M gz PT Te Rel -a RTE, AFAN] g 的 方向 相反 。 沿 着 由 a =a, 
rE MER, PATS AAS Bl e = 2, = 12， 这 两 个 专家 对 该 ME 模型 的 输出 页 献 是 相同 的 。 
LARZ., Ae Be BR Sb — EY A 


7.7 分 层 混合 专家 模型 


如 图 7-8 所 示 的 ME 异型 的 工作 是 通过 将 输入 空间 分 解 成 不 同 的 子 空 间 ， 由 一 个 门 网 负 
责 分 散 仿 息 (从 训练 数据 中 收集 ) 给 不 同 的 专家 。 如 图 7-11 所 示 的 分 层 混 合 专 家 (HME) 模 型 
是 ME 模型 的 日 然 扩 展 。 这 个 图 例 是 由 四 个 专家 组 成 的 一 个 HME 模型 ，HME 异型 的 体系 结 
构 是 一 棵 树 ， 门 网 在 树 的 非 终 端 节 点， 而 专家 在 树 的 时 子 部 分 。HMEF 模型 和 ME 模型 的 不 同 
之 外 在 于 其 输入 空间 被 分 成 一 个 谋 套 的 子 空 间 集 ， 在 多 个 以 分 晨 方 式 调整 的 门 网 控制 下 信息 
性 专家 之 间 被 整合 或 者 重新 分 配 。 


ay at 专家 11 
erie 1 





第 一 屋 门 网 


图 7-11 两 个 层次 的 层次 泥 合 专家 (HME) 示 意图 
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如 图 7-11 所 示 的 HME 模型 有 两 层 层 次 或 两 层 门 网 。 继 续 凡 同样 方式 运用 分 而 治之 的 原 
则 ， 我 们 可 以 构造 征 意 多 层 层次 的 HME 模型 .注意 根据 图 7-11 所 描述 的 约定 ， 门 网 层 的 编 
导 从 树 的 输出 节点 开始 。 

图 7-11 Bras th) HME 模型 的 构成 可 以 从 两 方面 观 状 (Jordan,1994) : 

1.HME 模型 是 分 而 治之 策略 的 产物 。 如 果 我 们 相依 将 输入 空间 分 成 区 域 是 一 个 好 策略 ， 
那么 冉 将 区 域 分 成 子 区 域 足 一 个 同样 好 的 策略 .我 们 可 以 递归 地 继续 采用 这 种 方式 ， 直 到 达 
到 这 村 一 个 阶段 ， 副 近 曲 面 的 复杂 性 是 对 训练 数据 "局 部 " 复 节 性 和 良好 拟 合 。 因 此 HME 模型 
至 少 应 有 ME 模型 一 样 的 性 能 ， 而 且 经 常 要 比 它 好 。 这 是 基于 这 样 原 因 : 一 个 HME 模型 中 
钱 局 技 的 门 网 有 交 地 整合 傅 息 ， 并 且 把 它 重 新 分 配给 该 门 网 控制 下 的 特定 子 树 的 专家 。 因 
此 ， 在 所 讨论 的 子 树 中 每 一 个 参数 和 在 该 子 树 中 的 其 他 参数 一 起 分 享 强度 ， 因 而 有 助 于 提高 
HME 模型 的 整体 性 能 。 

2. HME 模型 是 一 个 软 决 菏 树 。 根 据 这 种 观点 ,混合 专家 只 不 过 是 单 层 的 决策 树 ， 有 时 
{LPR CA RE Re AT HE ( decision stump) - 从 一 个 更 一 般 的 背景 来 说 ，HMF 棕 型 可 视 为 决策 树 的 概率 
ER, RAR AR RRA HME 模型 的 输出 和 节点。 标准 决策 树 的 方法 是 构造 一 棵 树 ， 该 
树 在 输入 空间 的 不 问 域 上 导出 一 个 人 硬 ( 即 是 或 否 }) 决 策 。 这 和 HME 模型 上 的 软 决策 形成 对 照 。 
因此 ， 基 于 下 面 的 两 个 原因 AME 模型 会 胜 过 标准 决策 树 ， 

一 个 人 硬 决 策 不 可 避免 的 丢失 信息 ， 但 一 个 软 决 策 树 尽力 地 保存 信息 。 例 如 一 个 软 二 

分 决策 传送 距 决 策 边 异 { 即 其 决策 是 0.5 的 点 ) 的 距离 信息 ， 而 一 个 硬 诀 策 做 不 到 这 
上 点。 因此 我 们 可 以 说 不 你 标准 的 雇 策 树 ，HME 模型 符合 信息 保持 规则 (infonmation 
preservation mle)。 这 个 经 验 规 则 表明 一 个 输入 信和 叶 的 信息 内 容 应 该 以 计算 有 效 的 方 
式 保 存 直 到 系统 作 好 进行 最 后 决策 或 者 参数 估计 的 准备 ， 

© 标准 决策 树 受 到 贪 整 (greediness) 问 题 的 损害 一旦 从 这 样 的 树 中 作出 一 个 决策 ， 那 

么 在 这 以 后 这 个 决策 被 冻结 ， 水 义 不 会 改变 。HME RS T SAE, AAS 
这 棵 酝 所 作 的 决策 是 不 断 变 化 的 。 不 像 标 准 决 策 树 ， 在 HME 模型 中 不 良 决策 可 能 沿 
善 这 棵 树 得 到 恢复 ， 

第 二 种 观点 ， 即 在 考虑 HME 模型 时 一 个 软 决策 树 是 首选 的 方法 ， 当 将 HME 模型 看 作 决 
来 树 的 概率 基础 时 ， 对 任何 给 定 的 数据 集 它 允 许 我 们 计算 似 然 函数 ， 并 且 对 决定 输入 空间 不 
同 区 域 之 则 分割 的 参数 求 最 大 似 然 佑 计 。 因 而 在 我 们 已 知 的 标准 决策 树 的 基础 上 ， 可 以 得 到 

个 实际 的 模型 选择 问题 的 解决 方案 ， 这 在 下 一 节 进 行 讨论 。 


7.8 ”使 用 标准 决策 树 的 模型 选择 


和 每 一 种 其 他 的 神经 网 络 一 样 ， 对 于 参数 估计 间 题 的 一 个 满意 解 ， 关 键 在 于 对 所 解决 的 
问题 选择 合适 的 模型 。 在 HME 模式 的 情形 ,模型 选择 包括 树 中 的 决策 节点 的 数目 和 组 织 。 
这 种 特殊 的 模型 选择 问题 的 一 个 确实 可 行 的 解决 方案 是 在 训练 集 上 运行 标准 决策 树 算法 ， 然 
后 采用 获得 的 树 作 为 决定 HME 模型 的 参数 的 学 习 算 法 的 初始 化 步 又 (Jordan,1994})。 

HME 模型 和 标准 决策 树 有 很 清晰 的 相似 性 ， 比 如 Breiman et al.(1984) 提 出 的 分 类 和 国 归 
#4 ( classification and regression tree, CART), FA 7-12 表示 一 个 CART 的 例子 ， 其 中 输入 数据 的 
空间 尖 敏 一 系列 的 二 人 导 分 划 亨 分 成 终端 节点 。 比较 图 7-11 SOA 7-12， 我 们 会 发 现 CART 和 
HME 之 各 的 下 述 相 似 点 : 
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270 IF 
© 在 CART 的 中 司 ( 即 非 终 端 } 节 点 中 选择 
分 荐 的 规则 所 起 的 作用 ， 种 HAME 模型 
中 门 网 的 作用 相似。 
* CART 中 的 终 问 节点 所 起 的 作用 ， 利 
HME 模型 中 专家 网 络 作 用 横 似 。 
从 对 感 兴趣 的 分 类 或 回归 问题 的 CART FF 
始 ， 我 们 利用 CART 的 离散 性 ， 在 可 选择 树 中 
提供 一 种 有 癌 有 的 搜索 。 遂 过 应 用 这 样 选择 的 一 ”图 7-12 RR, RF. 节点 1。 和 节 
RTE NS BAIT ee eR, 我 ”点 4 为 节点 4 的 后 代 ; 节点 u 和 节点 4s 为 节点 
们 利用 HME 模型 的 连续 概率 基础 产生 期 望 响 :的 后 代 ; 节点 ts 和 节点 与 为 节点 p 的 后 代 
应 的 一 个 改进 的 “ 软 " 人 生计 。 
CART 算法 


根据 我 们 刚直 所 讲 的 ， 可 以 得 到 一 个 CART 算 法 的 简明 描述 。 该 描述 存 同 人 妇 的 背景 下 给 
出 。 碎 训练 数据 jx ,di 旧 始 ， 我 们 可 以 利用 CART 通过 以 下 的 方式 去 建造 一 个 最 小 平 
方 回归 的 二 丸 树 OTC Breiman et al. , 1984): 

1. TARAR, ROTA t+ 代表 当前 树 7 ATTE, ikd ORRERA AA 
tx ;的 d; 平均 ， 即 


-.— = — QV aa 





; 1 
d Se d l 
(t) NEG 之 i (7 33) 
其 中 ， 六 (是 寺中 所 有 实例 的 数目 ， 对 所 有 Et d 求 和 。 定 义 
E(t) =$ Sd, - dn) (7.34) 
x63 
和 ECT) = D Ele) (7.35) 


+E T 


IPTA, BMD eld O- YARR TARR FAR”, MERA RE + 中 的 


d, 和 均值 d (1 ASR AA. A CT RSA TAS eS 
Al, RON 除 后 得 到 均值 。 

E TPHA PA: 的 一 个 分 割 集 $， 最 好 的 分 割 8“ 是 S 中 使 各 (了 T) 减 少 最 快 的 分 割 。 
更 精确 的 说 ， 假 定 对 于 节点 1 的 任何 分 割 ;， 它 将 节点 ome AMHR PAM AA 
边 的 新 节点 )， 我 们 令 


AS(s,t) = CCT) — C(t) - Blt) (7.36) 
那么 要 有 末了 最 的 最 好 分 割 。” 是 一 个 如 下 的 特殊 分 割 
AC(S") = maxA€(¢,s) (7.37) 


建立 一 棵 回归 树 以 使 (了) 的 减少 最 大 化 。 
2. 终端 节点 的 确定 。 假 如 下 面 的 条 件 满足 ， 一 个 i 节点 被 声明 为 终端 节点 ， 
maxA€(s,¢) <p (7.38) 


其 中 8B 为 预先 给 出 的 阅 值 。 
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ARVANA. ORR HAR, SKC 
Hx, CHR, S dE a: 中 所 有 dd 组 成 的 对 应 向 量 ， 定 义 
w(t) = X (d}d(t) (7.39) 
EP, K Cc) ERREX A, MH w RE PE Od) IE 
方 估 计 。 使 用 式 (7.39) 计 算 产 后 的 权 值 ， 通 过 寻找 关于 回归 曲面 残 差 (误差 ) 平 方 的 最 小 和 而 
不 旦 均值 ， 分 割 选择 问题 得 以 求解 。 


使 用 CART 初始 化 HME 模型 


假定 CART 的 方法 已 经 应 用 到 一 个 训练 集 上 ， 由 此 产生 这 个 问题 的 一 个 二 叉 活 策 树 。 我 
们 可 以 把 由 CART 产生 的 分 割 作为 一 个 多 维 曲 面 ,定义 为 
a x+b= 人 0 
EP, x 是 输入 同 量 ，& 代表 一 个 参数 向 量 ，8 代表 一 个 偏 置 。 
RAS — T HME 模型 中 对 应 的 情况 ， 从 例 7.1 我 们 注意 在 一 个 二 叉 树 中 由 一 个 门 网 
产生 的 加 有 归 则 而 可 以 写成 
l 
a = + expl ~ (a X+ b)) 


它 证 义 一 个 分 割 ， 特 别 是 g = 1/2 的 时 候 。 令 这 个 特殊 的 门 网 的 权 值 向 量 ( 差 )a 被 写 为 


a= lall Tal (7.41) 

其 中 上 a 上 代表 8 的 长 度 ( 即 欧 几 里 德 范 数 )，ai || a 4 是 一 个 归 一 化 的 单位 长 度 向 最， 将 式 

(7.41) 应 用 到 式 (7. 和 可) 中 去 ， 我 们 可 以 重 写 门 网 的 一 个 参数 化 分 割 如 下 .: 
] 


TO 

其 中 可 以 看 出 w| a 决定 分 割 的 方向 ，| all Reo SABE (sharpness). A 2 章 的 讨 
论 ， 我 们 观察 到 向 量 a 的 长 度 实 际 上 充当 温度 的 倒数 。 从 式 (7.42) 中 注意 的 重点 是 由 线 件 过 
湛 静 后 跟 一 个 非 线 性 的 “ 软 最 大 "形式 组 成 的 门 网 能 够 模仿 一 个 CART 类 型 的 分 割 。 此 外 ， 我 
们 有 另外 的 上 自由 度 ， 即 向 量 a 的 长 度 。 在 一 个 标准 活 策 树 中 ， 这 个 附加 的 参数 是 不 相干 的 ， 
因为 用 一 个 国 什 ( 硬 决 策 ) 来 产生 一 个 分 制 。 相 反 ，a 的 长 度 对 由 HME 模型 中 的 门 网 产生 的 
分 割 锐 度 有 极 深 的 影响 。 特 别 地 ， 对 于 一 个 固定 方向 的 突 和 触 权 值 向 量 a, 我们 可 以 陈述 如 
P: 

。 “a E(P, 分割 是 尖锐 的 ; 

*。 当 a 短 ( 即 温度 高 ) 的 时 候 ， 分 割 是 柔和 的 。 

假如 在 极限 情况 ， 我 们 有 lal =0， 分 割 消 失 并 且 在 消失 的 (虚构 的 ) 分 割 两 边 g = 1/2. 
因为 被 考虑 的 门 网 不 再 分 割 ， 所 以 设置 | al 上 =0 的 作用 等 国 于 从 树 中 前 除非 终端 节点 。 在 
一 个 极 病 的 例子 中 ， 当 a 在 每 一 个 非 终 症 节 点 上 很 小 ( 即 温度 高 )， 那 么 整个 HME 模型 会 
像 单个 的 和 节操; 也 就 是 说 ，HME 模型 退化 成 一 个 线性 回归 模型 (假设 线性 专家 )。 随 着 遍 值 
的 突 触 权 值 问 量 在 长 度 上 开始 增加 ，HME 开始 产生 ( 软 的 ) 分 割 ， 因 而 增加 模型 可 利用 的 自 
FR BE AX FA 

我 们 可 以 通过 如 下 的 步骤 初始 化 HME: 


(7.40) 


(7.42) 
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1. 使 用 CART 训练 数据 。 
2. 设置 HME 模型 中 专家 的 突 触 权 值 向 量 ， 和 使 其 和 在 一 驻 树 相应 终端 节点 上 通过 应 用 


[376] CART 得 到 的 参数 向 重 最 小 平方 估计 相等 。 


3. 对 于 门 网 : 
fa) 设置 窜 触 税 值 向 量 ， 使 其 指向 二 叉 树 中 与 通过 CART SF thy ar ERIA A 
Cb) 设 置 突 触 权 值 向 景 的 长 度 ( 妈 欧 几 里 德 范 数 ) 等 于 很 小 的 随机 向 量 。 


7.9 先 验 和 后 验 概率 


多 项 式 概 率 g, 和 gg. 分别 必 于 第 一 层 和 第 二 层 的 门 网 ， 从 它们 的 值 仅 依赖 于 输入 向 量 
(刺激 )x 这 个 意 疼 上 来 说 ， 可 视 为 先 验 概率 。 用 同样 的 方法 ， 可 以 定义 后 验 概率 A, Bay, 
它们 的 值 既 依赖 于 输入 回 量 x, Mia eat x 的 响应 ; 后面 的 这 组 概率 对 HME 模型 的 
学 习 方 法 的 发 展 有 用 。 

参考 向 7-11 的 HME 模型 ， 可 以 定 交 树 中 非 终 端 节 点 的 后 验 概率 为 (Jordan and Jacobs, 
1994): 


: 
Bi S gexp = aid E ve)? | 
h, = (7.43) 


= 2 2 
D> Bi Dl gexpl -5 (d - Aa 
k=l j=l 2 


] 
gy cexp| - ald - vay’) 
和 hip = Se aMn (7.44) 


>} gexo] = 5 (a - ya) 


h, 和 名 i 的 恬 积 定义 专家 ( 习 , 有 所 产生 输出 yj 匹配 期 望 岗 应 4 HRSG ERE, h 


servexp| = Fd 一 Fi "| 


hy = hh = 7 1 (7.45) 
2s 8 are - Led- yn) 
Zatti. MEE 如 满足 下 面 的 两 个 杀 件 ; 
O< hy <1 x Tar HIG), k) (7.46) 
Sy Shy = 1 (7.47) 


(7.47) FS MAIER TERS A a FARA IBS Ae. Esh, MRT. 45 TERI, y 
d 越 接近 ， 给 予 专家 (六 和 的 输出 匹配 d ARERR SS, RE EO Le. 

HME 模型 的 :个 特别 值得 提 的 重要 特征 是 计算 后 验 概率 涉及 的 计算 遂 归 性 。 检 查 式 
(7. 和 2) 和 (7.43)， 发 现 式 人 .44) 中 员 的 分 母 看 起 来 是 式 (7.43) 中 h 的 分 子 。 在 一 个 HME 模 
型 中 ， 我 们 想 计算 树 中 所 有 非 终端 节点 的 后 验 概 率 。 这 正 是 递归 性 特别 有 价值 之 处 。 特 别 
地 ,计算 树 中 的 所 有 非 和 终端 节点 的 后 验 概 率 可 以 通过 如 下 描述 的 一 遍 过 程 得 到 : 

。 从 这 襟 岩 一 层 一 层 地 移动 到 根 节 点 ， 树 的 所 有 非 终 端 节 点 可 以 通过 简单 地 将 它 的 “ 孩 

子 们 ”的 后 验 概率 进行 整合 而 得 到 。 
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7.10 最 大 似 然 估计 


下 面 转向 HME 模型 的 参数 居 计 问题 ， 我 们 首先 注意 它 的 松 率 的 解释 和 ME A St 
不 同 。 因 为 HME 模型 以 _ 叉 树 的 形式 组 织 起 来 ， 所 以 假定 负责 产生 数据 的 环境 包括 一 个 烷 
EFIRLI ER, AAA wE xaj 4 的 回归 中 结束。 特别 地 ， 我 们 假定 在 HME 
的 概率 产生 模型 中 ， 决 纪 模 所 为 多 项 式 随机 变量 (Jordan and Jacobs,1994)。 凤 对 于 每 一 个 输 
Ax, RITE g, tx 8 解释 为 和 第 一 个 次 策 有 大 的 多 项 式 概 率 ， 将 gi, (Xx, ) 解 释 为 和 第 二 
TRRRAP RAS, ARMA, Fino 表示 产生 模型 参数 的 真实 值 。 这 个 决 
RIC RP ROR, A ME 模型 一 样 ,“ 软 最 大 ”被 用 作 整 个 HME 模型 的 门 网 的 激活 图 数 。 
特别 地 ， 顶 层 门 网 的 第 天 个 输出 神经 元 的 激活 总 WFE: 


z expt “iy ) S 
Sr T explu,) + exp( wa) To eae (7.48) 


其 中 凡是 应 用 到 那个 神经 元 的 输入 加 权 和 。 类 似 地 ， 第 二 层 第 不 个 门 网 的 第 7 个 输出 神经 
TOMA AE SLAY 


E expt Ha ) ae, 
Eak = exp(u,) + explu,)’ (j,k) ae (7.49) 


其 中 ws 是 应 用 到 这 个 特定 神经 元 的 输入 加 权 和 。 

由 于 表示 的 原因 ， 我 们 将 要 讲 到 的 HME 模型 仅仅 只 有 两 层 层次 ( 即 两 层 门 网 ) ， 如 图 
7-11 所 示 。 和 ME 模型 一 样 ，HME 模型 的 每 一 个 专家 被 假定 为 由 一 个 单 层 的 线性 神经 元 组 
成 。 令 y; 代 表 专 家 (j,k ) 的 输出 ， 可 以 把 HME 模型 的 整体 输出 表示 为 


= Ye > gun (7.50) 


AUT 7.6 PIAA ME 异型 的 过 程 给 定 输入 x， 我 们 可 以 对 图 7-11 的 HME 
模型 的 期 望 响应 的 随机 变量 的 概率 密度 函数 表示 如 下 ， 


fyld | x,8) = J 2 8 >) grexp - 5 (d 本 va)" (7.51) 


Am, 8 P28 ee URE a, (7.51) LP or i A, (oO TE 
HME 模型 中 表征 门 网 和 专家 网 络 涉及 的 所 有 突 角 权 值 。 
概 然 函数 [9 的 设计 由 概率 明 数 6 (dl x DBM, THH-FSRRGVEON SK, AE 
我 们 可 以 写成 
HO) = fold | x,0) (7.52) 
EB PR SP (AEE RE BE a BE LA ea E EE ook, ERIE A Zeb. 在 
pldi: OF, MAME x ABR o ERER, Meo dee. He, EZ A 
RO, xd 都 是 固定 的 ， 而 6 是 变量 ， 
实际 上 ， 我 们 发 现 似 然 函数 的 自然 对 数 使 用 起 来 比 似 然 天 数 本 身 方 恒 得 多。 用 LO) ze 
AR St HR Bae, BR 
LC®) = log! 1(8)] = log f,(d | x,@) | (7.53) 
(OHM ARH OREHA., RERA (如 只 要 增加 ， 其 旦 然 对 数 LOES i. A 
为 i) 是 一 个 条 件 概 率 帘 度 负数 的 公式 ， 它 永远 不 可 能 为 针 。 那 就 意味 着 求 5(9) 的 计算 无 
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任何 问题 。 因 此 参数 向 量 6 KI -Ma a 6 AB Ra 
a 
59! (8) - 9 
a, BRST HMA Hak hl A E 
ZLC) =- 0 (7.54) 


得 到 。 有 具有 所 期 望 的 渐进 性 质 的 “最 大 似 然 估 计 ”" 的 术语 通常 是 指 能 使 似 然 函 数 KZ 
全 局 最 大 化 的 似 然 函数 方程 的 根 。 但 是 ， 实 际 使 用 的 估计 值 8， 事 实 上 可 能 是 局 部 最 大 而 不 
EZERA., AEA, HHF Fisher(1925) 的 最 大 似 然 估计 ， 基 于 一 个 相对 简单 稀 思 想 : 
不 同 的 总 体 产 生 不 同 的 数据 样本 ， 并 且 任 何 一 个 给 定 的 数据 样本 更 有 可 能 失 某 沾 总 体 而 
不 是 从 其 他 的 总 体 产 生 。 
SRW Hin, AERA ex, RASH OBA EM RT esas Hh. moe 
说 ， 最 大 似 然 估计 6 是 使 得 其 条 件 概 率 男 数 广 (dlxz, 的 最 大 的 参数 向 量 8 的 值 。 


7.11 HME 模型 的 学 习 策略 


7.10 让 中 HME 模 地 的 概率 描述 引导 我 们 将 对 数 似 然 函 数 地 0 作为 最 大 化 的 目标 函数 。 
此 时 关键 问题 是 如 何 实 现 最 大 化 。 和 其 他 最 优化 问题 一 样 ， 并 不 是 只 有 独一无二 的 最 太 化 
人) 的 方法 。 相 反 ， 我 们 有 好 几 个 达到 我 们 目的 的 方法 ， 在 这 里 概述 其 中 的 两 个 (Jacobs and 
Jordan, 1991; Jordan and Jacobs , 1994}. 

1. 随机 梯度 方法 。 这 个 方法 产生 L( 人 0 的 最 大 化 的 在 线 算法 。 对 于 如 图 7- 11 描述 的 两 层 
HME 模型 依赖 于 下 面 组 成 的 公式 : 

。 专家 (7 ,中 突 触 权 值 癌 量 的 梯度 向 量 3 L939w， 

* 顶层 门 网 中 竹 出 神经 元 大 的 突 触 权 值 向 量 的 梯度 向 量 327aa， 

© 和 专家 他 ,好 相连 的 第 二 层 门 网 中 输出 神经 元 的 突 触 权 值 向 量 的 梯度 向 量 377aa， 

下 面 的 会 式 可 直接 证 明 ; 


dL 
OW, = hyp (ah Cad din) = yg (n})xCn) (7.55) 


e EE dtu (7.56) 


SE = y(n) hyn) = guln) xla) (7.57) 
i 


式 (7,55) 表 明 ， 在 训练 的 过 程 中 ， 对 专家 (j,) 的 突 触 权 值 的 调整 ， 是 与 联合 后 验 概率 A, 
比例 地 修正 输出 ya 和 捧 望 响应 a 之 间 的 误差 。 式 (7.56) 表 明 ， 对 顶层 门 网 的 输出 神经 元 的 
突 触 权 值 的 调整 ， 是 使 得 后 验 概 宰 g, (5) 和 相应 的 后 验 概率 h(n) 途 渐 靠 近 。 式 (7.57) 直 
明 ， 对 与 专家 (j ,5) 相 联系 的 第 二 屋 门 网 输出 神经 元 的 突 甬 的 调整 ， 是 与 后 验 概 率 h(n) 
比例 地 修正 先 验 概 率 gi, 和 后 验 概 率 有 ;之 间 的 误差 。 

根据 式 47.55) 至 式 {(7.57)， 当 每 一 个 模式 (刺激 ) 被 出 现 后 ，HME Me 
地 园 新 。 通 过 将 梯度 问 量 对 nn 求 和 ， 可 以 得 到 使 对 数 似 然 函 数 LC(6) 最 大 化 的 集中 式 的 梯度 
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EARJE, 

2. 期 望 最 大 化 方法 。 期 望 最 大 化 (expectation-maximization, EM ) 算 法 归功 于 Dempster et al. 
(1977)， 提 供 一 个 在 有 缺失 数据 情况 下 计算 最 大 似 然 估计 值 的 迭代 方法 ， 在 此 情况 下 如 果 没 
有 数据 缺失 ， 则 最 天 似 然 刁 计 将 是 一 件 薪 单 的 事情 。FM 算法 的 名 字 是 很 据 在 该 算法 的 每 - 
KIRAN PRR ak PEE: 

。 期 望 步 或 者 是 下 步 ， 它 使 用 一 个 非 完 整数 据 {ineomplete data) 问题 的 观察 数据 集 和 参 

数 回 量 的 当前 值 ， 产生 -- 个 假定 的 护 大 的 或 者 称 为 完整 的 数据 集 。 
。 了 草 天 化 种 或 者 M 步 ， 它 通过 使 卫 步 产生 的 完整 数据 的 对 数 似 然 丽 数 最 大 化 导出 参数 
问 量 的 一 个 新 的 估计 恒 。 

因此 ， 参 数 网 量 从 一 个 合适 的 值 开 始 , Ea Me RS BBO. 

EM 千 法 通用 的 情况 不 忆 仅 包括 那些 本 来 就 非 完 整 的 数据 ， 还 包括 其 他 各 种 不 同情 况 ， 
这 些 情 沈 下 数据 非 完整 对 讨论 的 问题 而 言 一 点 也 不 明显 或 者 说 不 自然 。 实 际 上 ， 最 大 和 似 然 舍 
计 的 计算 通过 人 工地 使 它 成 为 不 完整 数据 问题 经 党 极其 容易 。 之 所 以 这 样 是 因为 EM 算法 在 
带 定 完整 数据 的 情况 下 能 有 兹 利 用 减低 后 的 最 大 似 然 和 估计 的 复杂 性 (McLachlan and Krishnan, 
1997), HME 祝 型 是 这 样 的 应 用 例子 之 一 。 在 这 种 情况 下 ， 缺 失 数据 以 某 种 指示 器 变量 的 形 
RAATH AB AME 模型 中 ， 以 方便 估计 未 知 参 数 向 量 的 最 大 似 然 值 ， 正 如 在 7.12 节 讨 论 
过 的 一 样 。 

不 蔷 尾 通过 随机 梯 庆 方法 壕 是 应 用 ME 算法 进行 设计 ，HME 模型 的 重要 特征 是 双重 的 ; 

” 和 模型 中 的 每 一 个 门 网 不 断 地 计算 训练 集 的 每 个 数据 点 的 后 验 概 率 。 

* 应 用 于 模型 中 专家 和 门 网 的 突 触 权 值 的 调整 量 ， 从 一 次 和 迭代 到 下 一 次 ， 是 一 个 所 计 

算 的 后 验 概率 和 相应 的 先 验 概率 的 明 数 。 

相应 的 ， 假 如 树 的 部 的 专家 网 络 不 能 很 好 地 拟 合 其 局 部 领域 的 训练 数据 ， 那 么 树 中 高 层 
的 个 赔 的 回归 (判别 ) 曲 面 将 被 移 向 周围 。 这 种 移动 反 过 米 能 攻 助 专家 网 络 在 下 一 次 学 习 算 水 
的 选 代 中 通过 平移 它们 进行 数据 拟 合 的 子 空间 而 更 好 地 拟 合 数据 。HMEF 模型 就 是 通过 这 种 
过 程 来 改良 与 创 CART 这 样 的 标准 决策 树 有 关 的 贪 禁 问题。 


7.12 EM 算法 


EM 算法 之 所 内 全 得 注意 ， 部 分 是 出 于 固有 理论 的 简单 性 和 通用 性 ， 部 分 由 于 其 广泛 的 
BAS, FXII RR PT EM 算法 做 一 个 简单 的 描述 。 在 下 一 节 我 们 继续 考 
BEA HME 模型 的 参数 估计 问题 中 的 应 用 。 

让 向 量 z 代 表 缺 失 的 或 者 未 观察 到 的 数据 。 让 r 代表 完整 的 数据 向 量 ， 它 由 一 些 可 观察 
的 数据 d 和 缺失 的 数据 向 量 z 组 成 。 因 而 考虑 两 个 数据 空间 筑 和 当 ， 它 们 具有 从 多 到 3 的 多 对 
一 的 上 映射。 我 们 不 能 观察 到 完整 的 数据 向 量 r， 相 反 实 际 仪 能 观察 到 名 中 非 完整 的 数据 d = 
dlr)e 

令 于 (TI 人 0 代表 在 给 定 参 数 向 量 8 的 情况 下 的 条 件 概率 密度 函数 。 那 么 随机 变量 DE 
给 定 和 的 情 议 下 的 条 件 概率 窗 麻 图 数 可 以 定 光 为 


FPCd1g) = | ft (8) dr (7.58) 
EPR dA 8 = d({r) 决 定 的 灸 的 子 空间 。EM 算法 的 直接 目的 在 于 找到 9 的 一 个 值 使 得 非 完 
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RE ST TSA Hs 
TD) = logf,(d | 8) 
RÍFRA., (Ade, eT HAR Bae ee a oT] fe Hil H 5c SE RE A 
L.(@) = logf.Cr | 8) (7.59) 
PETIA ESM, EAL Pee, AAR Se E BR. 
更 确切 地 说 ， 让 8(n) 代 表 EM 算法 在 迭代 n WSR OM. ERER EE, 
我 们 计算 期 望 
0(8.8(n)》) = ELL (®)] (7.60) 
其 中 期 望 是 对 OEM. EE RR MS. ESRO) SW 中 对 8 最 大 化 
0(8,6 (n)) ,这 样 找到 更 新 参数 估计 值 和 n+ 1)， 表 示 为 
O(n + 1) = arg max Q(0,8(7)) (7.61) 
该 算法 开始 时 参数 向 量 8 的 初始 值 为 6(0)， 然 后 根据 式 (7.60) 和 (7.61) 交 替 进 行 EE 步 和 M 
步 ， 直 到 LC8Cn+1)) 和 5(6(n)) 之 间 的 差 下 降 至 某 -~ 一任 意 小 值 ， 此 时 ， 整 个 计算 结束 。 
注意 在 EM 算法 的 一 次 选 代 后 ， 非 完整 数据 对 数 似 然 函 数 不 是 递减 的 ， 表 示 为 (参看 习 
题 了 .10) 
Ln +1) = LO(n)), n= 0,1,2, (7.62) 
等 号 成 立意 味 着 我 们 处 于 对 数 似 然 函 数 的 稳定 点 上 。 


7.13 EM 算法 在 HME 模型 中 的 应 用 
在 熟悉 EM 算法 之 后 ， 我 们 准备 应 用 EM 算法 解决 HME 模型 的 参数 估计 问题 *，。 
考虑 图 7-11 所 示 的 HME 模型 ， 当 它 运行 训练 集 的 样本 了 时 ， 令 eP Me SURE | 
第 一 层 门 网 和 第 二 层 门 网 (j,) 采 取 与 决策 有 关 的 (条 件 ) 多 项 式 概率 。 那 么 ,我 们 很 容 
饭 得 到 在 给 定 样本 x, 和 人 参数 向 量 8 的 情况 下 ， 随 机 变量 D 相应 的 条 件 概率 密度 函数 的 值 
如 下 : 
foid: | x; ,6) = 248% > giex ae S 7 VP)? ] (7:63) 


其 中 ，y# 是 为 了 响应 训练 集合 的 第 ;个 样本 由 专家 Cj, 产生 的 输出 。 假 定 包 含 在 训练 集 内 
的 所 有 太 个 样本 彼此 之 间 是 统计 独立 的 ， 对 于 非 完 整数 据 问题 可 以 写 出 对 数 似 然 丽 数 的 公式 


L(0) = log| Ifa | x, ,0) | (7.64) 
村 用 式 (7.63) 代 入 式 (7.64) 且 忽 格 带 数 一 (172)logt2x)， 可 以 得 介 
L(B) = >; log] De > glexp( 一 Lea, 一 vg j2) | (7.65) 


为 了 计算 8 的 最 大 似 然 估 计 值 ， 我 们 不 得 不 找 一 个 工 (9) 的 稳定 点 ( 即 局 部 或 全 局 最 大 )。 不 
音 的 是 ， 取 (7. 的 ) 所 示 的 最 大 似 然 琢 数 5(8)， 并 不 能 使 我 们 很 容易 进行 这 种 计算 。 

为 了 死 服 这 种 计算 上 的 困难 ， 根 据 EM 算法 我 们 通过 加 大 一 组 相应 的 缺失 数据 人 为 地 扩 
大 可 观察 数据 1d. |,。 为 这 一 点 引 人 人 属于 HME 结构 概率 模型 的 指示 器 变量 如 下 : 

e oz 和 zi 被 解释 为 对 训练 集中 第 ! 个 样本 所 做 决策 的 相应 标号 。 这 些 变 量 这 样 定 义 ， 
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使 得 对 于 所 有 i， 只 有 一 个 zi? 等 于 1， 也 共有 一 个 EF o ol? Ach] the 
HARET, EITE A KHER EA 
Elz] = Pl = 11x,,d,,6(n)] = RP (7.66) 
Elz] = Plz) = 11x,,d,,0(n)] = AS (7.67) L383 
Hp, A ESE o E EMAA E n BAT eH. 
e zy) = 25 2,1, REO AE i 个 例子 指定 概率 模型 的 专家 (产妇 的 标号 ， 它 也 
秆 看 作 一 个 离散 的 随机 变量 ， 其 期望值 定义 为 
Elzy ] = Elzie] = Elei l ELP] = ARRP = af? (7.68) 
式 (7.66) 至 (7.68) 中 的 AY, ALAA IE 7.9 节 引 入 的 后 验 概率 ;对 它们 添加 上 标 i 表明 当 
前 考虑 的 样 上 本。 这 三 个 等 式 的 合理 性 参看 习题 7.13。 
通过 将 如 此 定义 的 缺失 数据 加 入 到 可 观察 数据 中 ， 最 大 似 然 估计 问题 被 天 大 地 简化 了 。 
更 确切 地 说 ， 在 给 定 了 x 和 参数 向 量 8 的 情况 下 , > (dd ,zw Ix, OR d 和 zw 组 成 
的 宛 整 数据 的 条 件 概 率 密 度 函数 ， 我 们 可 以 写成 


f.(d,,2, | x;,0) = ITT (gr e (Of, (ad)) (7.69) 


其 中 六 (ad) 是 在 给 定 选择 HME 模型 专家 (1， DERA F d, SPR eS Ree, Ci) A 
Gauss 分 布 


fl.) = zel- = (d, -yY ) (7.70) 


给 出 。 注 意 公式 (7. 的 ) 对 应 于 一 个 假想 实验 ， 它 含有 由 zy 表示 的 实际 不 可 观察 的 指示 器 变 
景 。 无 论 如 何 ， 完 整数 据 问题 的 对 数 似 然 函 数 对 应 于 整个 训练 集 ， 由 


L.(@) = logl TT AC., | x,.0)] = log[ TI TI TI CaP eit f(a) | 
c=} f=] =l (7.71) 


-X 3 Da loggi? + loggi? + logf,(d,) ] 
着 出 。 用 式 (7. 70) 代 人 式 (7 NARR - (1/2)log(2zx ， 因 此 可 以 写成 


L.(0) = > > DI ef [loggt + loggi - = ¢d. - 2] (7.72) (3a) 


比较 式 (7.72) 和 式 (7.55)， 通过 将 指示 器 变量 作为 缺失 数据 加 入 到 可 观察 的 数据 集中 立即 
看 出 所 获得 的 计算 上 的 好 处 : 最 大 似 然 秸 计 问 题 被 解 看 为 针对 单个 专家 的 一 组 回归 问题 和 团 
对 门 网 的 一 组 可 分 离 的 多 项 式 分 类 同 题 。 
为 了 继续 应 用 EM 算法 ， 通 过 求 完 整数 据 对 数 似 然 函 数 L (0) 的 期 望 值 我 们 首先 启动 下 
步 ， 表 示 为 
0(8,6(n)) = ELL, (0)] 
-5 > Dg] (loge? + loge’, - 3(d, - ¥2)"] 


其 中 针对 指示 器 变量 求 期 望 值 ， 因 为 是 惟一 不 可 观察 的 变量 。 因 此 ， 用 式 (7.68) 代 人 式 
(7.73)， 得 到 (Jordan and Jacobs, 1994) 


(7.733 
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0(8,6(n) -X > Sas mrap + ogg 人 — zld, - wy) (7.74) 
该 算法 的 M 2b 23K OK 0(8, ê Cn) ) 的 最 大 值 。 参数 问 量 章 由 两 组 突 触 权 值 组 成 : 一 组 属 
OE ee 从 前 而 的 讨论 注意 下 面 的 事实 : 
。 专家 的 突 触 权 值 决定 ye, EA AY 的 定义 中 。 因 此 专家 仅仅 通过 项 he (d - 
YEY 影响 表达 式 00,8 (n)). 
© 门 网 的 突 触 权 值 决定 概率 g, ec AY. CUP TE RE (agg? + loggii) 
响 表 达 式 0(8,8 (5)) 的 。 
AUK, ETARTE HME 中 算法 的 丙 步 出 化 为 三 个 最 优化 问题 ， 


Win + l) = arg min in >) he? (ad ~ ¥y i (7.75) 
aln +Í) = Ea > > hy loggi” (7.76) 
a,(n+1) = arg max J sup 2 AL loge (7.77) 


在 式 (7.75) 至 {7.77) 的 最 优化 中 ， h 是 固定 的 : h 虽然 是 个 参数 的 函数 ， 但 是 并 不 对 求 
导数 。 男 外 也 要 福 意 这 些 等 式 右 边 的 所 有 量 都 是 指 时 间 步 n 时 的 取 值 。 

式 (7,75) 中 关于 专家 的 最 优化 是 加 权 的 最 小 平方 舍 计 问题 。 测 下 的 式 (7.76} 和 (7.77) 美 
手 门 册 的 最 优化 问题 是 最 大 似 然 估 计 问 题 ”。 注 意 ， 虽 然 这 些 公式 只 是 针对 两 层 结构 的 ， 但 
是 它们 很 容易 扩 作 到 任意 多 层 的 结构 中 去 。 


7.14 小 结 和 讨论 


在 建 模 、 模 式 分 类 和 回归 问题 的 研究 中 ， 有 两 个 极端 情况 需要 考虑 ， 
1. 简单 模型 ， 它 提供 对 感 兴趣 后 题 的 见解 ， 但 缺乏 精确 度 。 
2. 复杂 模型 ， 该 模型 提供 精确 结果 但 缺乏 见解 : 
单个 的 模型 既 简 单 又 精确 也许 是 不 可 能 的 。 在 本 章 的 第 二 部 分 ，CART 是 一 个 简单 模型 
的 例子 ， 该 模型 用 硬 决 策 将 输入 空间 分 割 成 一 系列 子 空间 ， 每 个 子 空间 有 自己 的 专家 。 不 幸 
的 是 ， 硬 决策 的 使 用 带 来 一 些 信息 的 损失 ， 因 而 带 来 性 能 上 的 损失 。 在 另 一 个 方面 ， 多 层 感 
基 奋 (MLP) 是 用 髓 套 非 线性 形式 保持 训练 数据 信息 的 复杂 模型 。 但 是 ， 它 使 用 黑 盒 方法 用 单 
个 函数 整体 拟 合 数据 ， 因 而 缺乏 对 问题 的 见解 。HME 模型 ， 代 表 一 种 动态 类 型 的 委员 会 机 
请， 是 两 个 极端 之 则 的 一 种 折 中 模型 ， 有 着 MLP 和 CART 的 共同 特征 ， 
。 HME 模型 的 结构 和 CART 类似 ， 但 不 同 之 处 在 于 前 者 是 对 输 人 空间 的 软 分 割 ， 而 后 
者 是 硬 分 割 。 
+ HME 模型 类 似 于 MLP 使 用 内 套 的 非 线性 形式 ， 但 不 是 为 了 输入 - 输出 允 射 的 目的 ， 
而 是 为 了 输入 空间 的 分 割 。 
在 本 章 我 们 强调 用 于 设计 HME 模型 的 两 种 工具 的 使 用 ; 
© 在 处 理 模 型 选择 问题 的 时 候 ，CaRT 是 作为 结构 基础 
。 EM 算法 是 通过 选 代 计 算 模 型 参数 的 最 大 似 然 佑 计 值 来 解决 参数 知 计 问题 的 。 
EM Bye 22 H RE Oe ue ELA 1B Ie) E (uphill) a, Am, whet 7.8 节 描 述 的 方式 应 用 
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CART 去 初始 化 EM 算法 ， 可 以 期 望 EM 算法 能 产生 的 汉化 性 应 该 比 CART 算法 建立 的 初始 条 
件 产生 的 泛 化 性 能 好 ， 

假如 感 兴 趣 的 应 用 是 最 大 似 然 征 计 ， 比 如 在 建 模 中 ，EM 算法 是 重要 的 和 基本 的 。 一 个 
有 意思 的 建 模 应 用 在 Jacobs ,jordan and Bartot 1991b) 中 摘 述 ， 其 中 一 个 ME 模型 被 训练 去 完成 
“什么 哪里" 任务。 在 这 个 任务 中 ， 模 型 彼 要 求 去 决定 目标 是 什么 ,目标 在 可 视 区 域 的 什么 
地 方 。 在 学 习 的 过 程 中 ， 应 用 了 两 个 专家 ， 它 们 中 的 每 一 个 是 专门 承担 任务 的 一 个 方面 。 对 
于 一 个 特定 的 输入 ， 两 个 专家 都 会 产 竺 输出。 但是， 由 门 网 决 人 证 对 输入 适当 的 混合 。Jacobs 
等 人 的 报告 的 成 功 结果 表明 ， 决定 任务 分 本 的 本 质 可 能 是 基于 在 任务 的 要 求 和 模型 的 计算 属 
性 之 则 的 匹配 ， 而 不 是 基于 任务 本 身 (Elman et al. , 1996). 

这 个 讨论 以 返回 本 章 第 - -部 分 学 习 过 的 另外 一 类 委员 会 机 器 的 研究 作为 结束 。ME 和 
HME 模型 依赖 于 使 用 由 输入 信号 激活 的 门 网 来 融合 被 模型 中 的 专家 所 获得 的 知识 ; 但 是 一 
个 基于 总 体 平 均 或 者 推举 的 委员 会 机 圳 ， 依 赖 于 学 习 算 法 本 身 去 做 整个， 归纳 如 下 : 

1. 总 体 平 均 通 过 对 以 下 两 个 措施 的 结合 以 一 种 聪明 的 方式 提高 它 的 误差 性 能 ; 

* 归结 为 偏 置 的 误差 碱 少 ， 通 过 有 意识 地 过 拟 合 委员 会 机 器 中 的 单个 的 专家 ， 
. JOT AEM RE a>, EIA eA EAA Rt, SRG OF 
均 各 自 的 输出 。 

2. 推举 通过 本 和 号 独特 的 方法 来 提高 误差 性 能 。 在 这 种 情况 下 ， 只 要 求 单个 专家 的 性 能 
比 随机 猜想 稍微 好 一 点 。 专 家 的 弱 学 习 模 型 被 转化 成 强 学 习 模 型 ， 因 市 该 委员 会 机 器 的 误差 
可 以 变 得 尾 意 小 。 取 得 这 种 非凡 的 转化 是 通过 某 种 方式 对 输 和 人 数据 的 分 布 进行 过 滤 ， 俩 得 能 
学 习 异 块 ( 妈 专 家 ) 最 终 学 到 整个 分 布 ， 或 者 如 同 白 举 那 样 ， 通 过 根据 一 定 的 概率 分 布 对 训练 
样本 进行 重 未 样 。 目 举 比 通过 过 让 的 推 蔡 的 优越 之 处 在 于 它 的 训练 例子 的 数目 是 固定 的 。 


注释 和 参考 文献 


Li] 在 Perone(1993) 中 讨论 总 体 平 均 方 法 ， 其 中 包括 该 主题 的 大 量 文献 。 有 关 这 个 主题 的 
其 他 参考 文献 包括 Wolpert( 1992) #1 Hashem{ 1997) 。 

(2) 几 个 神经 网 络 先 驱 者 建议 使 用 不 同 初 始 条 件 的 总 体 平均 设计 委员 会 机 器 。 但 是 ,在 
Naftaly et al.<1997}) 中 给 出 的 统计 分 析 以 及 那里 描述 的 由 初始 条 件 空间 的 总 体 平均 设计 
训练 委员 会 机 器 的 过 程 看 来 是 其 中 第 一 次 。 在 那 篇 文章 中 ， 基 于 太阳 黑子 数据 和 能 
A - 观测 芝 争 数据 得 出 实验 否 果 。 在 两 种 情 沉 下 对 初始 条 件 空间 求 平均 值 显示 方差 显 
车 下降。 
根据 Naftaly et al,《1997)， 在 用 初 妨 条 件 空间 的 总 仁平 均 设 计 委 员 会 机 器 时 不 提 尼 使 用 
流行 的 诸如 权 值 衰减 和 早期 停止 等 训练 约束 条 件 。 

(3) 推 华 理论 的 主要 参考 文献 和 相关 的 实验 研究 以 时 间 为 序 或 前 或 后 可 排序 如 下: Schapire 
(1990), Drucker et al.(1993,1994), Freund( 1995), Breiman(1996b), Freund and Schapire 
(19964, 1996b, 1997), Schapire( 1997) F0 Schapire et al. (1997)。 关 于 推举 的 三 个 基本 方法 
* FEY: Schapire( 1990) 
© 重新 采样 : Freund and Schapire{ 1996a) 
© 重新 加 权 : Freund( 1995) 
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[4] 


[7] 


L8] 


Jacobs, Jordan, Nowlan 和 Hinton 在 他 们 1991a 的 交 章 中 首次 讨论 利用 汇合 专家 实现 复杂 

腕 射 师 数 的 思想 。 这 个 模型 的 发 展 归功 于 (1)Nowlan(1990) 提 出 的 一 个 建议 ; ORES E 

学 习 的 竞争 日 适应 看 作 试 图 使 简单 概率 分 布 的 混合 拟 合 一 组 数据 ，(2) 在 Jacobs(1990) 

的 博士 学 位 论 交 中 利用 相似 的 组 件 结构 和 不 同 的 代价 为 狼 有 所 发 展 的 思想 。 

最 大 似 然 估计 器 有 一 些 和 希望 的 性 质 。 在 相当 一 般 条 件 下 可 以 证 明 下 列 潮 进 性 质 

(Kmenta, 1971): 

( 间 最 大 似 然 估计 器 是 相 容 的 。 令 (9) RRM RRR, 0, 为 参数 向 量 8 的 分 量 : 
WERO £/90, 称 为 分 值 。 我 们 说 一 个 最 大 似 然 画 数 估 计 徐 是 相 容 的 指 的 是 使 得 分 值 
a £138, FT OR 0, 的 到 值 随 信 计 中 样本 趋 于 无 穷 而 依 概率 收敛 到 6 的 真实 值 。 

(i) MAMAS Ee A ee, tHE 


jim | YEH = 9) s) -1 ”对 所 有 ; 


各 -二 中 at 


HEP N CARE AAA , Â, 为 8 ARAMA i., mE. 上 为 Fisher (2.8, 4E IE pia E FE 
的 第 i CHANLA., Fisher {f BEEN 





ËL 
EL oe EL 3545 Ee 
aE 
ee Lt “La! o elana 
JI 
"ES Ela 本 AETA 


其 中 型 为 参数 向量 和 BER. 

计 的 每 一 个 元 素 为 Gauss 分 布 。 
实际 上 ， 我 们 发 现 最 大 似 热 玉 数 估计 器 的 大 样本 ( 放 进 ) 性 质 对 样本 数 入 = 50 就 保持 得 
相当 好 。 
Newcomb(1l886) 的 文章 考虑 两 个 单 变 元 Gauss 分 布 的 混合 参数 估计 ， 看 起 来 这 是 文献 报 
告 中 最 早 的 一 个 EM 类 型 过 程 的 参考 文章 : 
“EM 算法 的 名 称 由 Dempster, Laird 和 Rubin 在 他 们 1977 莫 基 性 的 文章 中 创造 的 。 在 那 
第 文革 中 第 一 次 给 出 不 同 推广 层次 下 从 不 完整 数据 中 计算 最 大 似 然 估计 的 EM 算法 的 
ANa 
Mclachlan and Krishnan( 1997) -PRERA — Ri RE EM 算法 的 理论 、 方 法 和 应 用 ， 
它 的 历史 以 及 推广 。 
在 相当 一 般 条 件 下 EM 算法 计算 的 似 然 值 收 化 到 稳定 值 。Wo(t1983) 给 出 EM 算法 收敛 
人 性质 的 详细 考虑 。 但 是 EM 算法 并 不 总 是 导致 似 然 随 数 的 局 部 或 全 局 最 大 值 。 在 
McLachlan and Krishnan(1997) 扒 写 的 书 的 第 3 章 ， 给 出 两 个 不 收 毅 的 例子 ， 在 一 个 例子 
中 算法 收 代 到 散 点 ， 而 在 娘 一 个 例子 中 算法 收敛 到 似 然 函数 的 局 部 最 小 值 。 
利用 参数 向 量 的 先 验 信息 ，EM 算法 也 可 以 处 理 Bayes 最 大 后 验 (maximum a posterior, 
MAP) 信 计 ; 参看 习题 7.11。 利 用 Bayes 规则 ， 对 于 纵 定 一 组 观察 x 可 以 把 参数 疝 量 9 
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i) EE BE BTR 
falb ix) = ftx Mete, 
由 这 个 关系 ， 我 们 能 够 看 出 最 大 化 后 验 密 度 fe (81x) 等 价 于 最 大 化 积 函 数 f(x19) fe (8), 
因为 六 (中 是 独立 于 68 的。 概率 密度 两 数 Om 8 的 可 用 先 验 信 息 。 给 定之 后 最 
大 化 概率 密度 闲 数 月 (8ix) 提 供 参 数 问 量 8 的 最 可 能 估计 。 在 这 种 估计 的 背景 下 有 两 点 
值得 注意 : 
| 对 日 极 大 化 fx (x198) 表 示 最 人 似 然 信 计 ， 是 最 大 后 验 估计 的 简化 形式 ,简化 的 意思 
足 不 用 先 验 信息 。 

© 使 用 先 验 信息 与 止 则 化 是 同步 的 ， 这 (回忆 第 5 章 ) 相 当 于 光滑 的 输入 -输出 映射 。 
Waterhouse et al. (1996) H HRES ERRA H Tiit h Bayes 框架 ,那里 描述 的 
Bayes FA UR SAAN HAAS, SAR AUR ET We SRR A 
方差 的 合计 。 

9) 在 式 47.76) 和 (7.77) 中 描述 的 最 大 似 然 估计 问题 可 用 一 个 有 效 算 法 ， 称 为 选 代 重 新 加 
HUR ++ — 3K ( iteratively Treweighted least-squares, RLS) #4: 关于 IRIS 算法 的 描述 可 参看 
McCullagh and Nelder( 1989 > 。 


>] el 
总 体 平均 


7.1 考虑 由 下 个 专家 组 成 的 委员 会 机 器 。 第 上 个 专家 的 输入 -输出 孙 数 表示 为 F(x)， 
EF x AWANE, 大 = 1,2,…, 玉 。 每 个 专家 各 自 输 出 的 线性 组 合 形成 总 的 输出 ， 定 立 为 


Y = 2y WF (x) 
其 中 w, ERB FD WATEA. Seok w, 的 值 使 得 y 提供 了 相应 于 的 期 望 输出 
d 的 最 小 平方 估计 。 给 定 训练 数据 集 jx, 如) 所 ,， 求 不 的 所 需 值 解决 这 个 参数 估计 门 
题 。 
推举 
7.2 比较 通过 过 滤 的 推举 和 自 举 在 计算 上 的 优 缺 点 。 
7.3 通话 ,推举 在 弱 学 习 模 型 ( 即 具有 相对 低 泛 化 谋 差 率 的 学 习 模 型 ) 表 现 最 好 。 但 是 ， 
假设 给 你 一 个 强 学 习 模 型 ， 即 具有 高 泛 化 误差 率 的 学 习 模 型 。 若 你 处 理 大 小 固定 的 训练 样 ” B89] 
本 ， 这 时 怎样 通过 过 滤 推 举 和 自 举 处 理 这 种 情况 ? 
REER 
7.4 考虑 分 段 谍 性 任务 ， 描 述 为 
a, T (= +2e, tay t3re x, =! 
为 了 比较 ， 利 用 下 列 网 络 配 置 ， 
1. 多 层 感 车 器 :“10>10->17 网 络 
2. BORK: [JR]. 10-2 


5X5 + 2% 十 光一 了 十 EE fxr -- 1 
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CAN.: 10-1 

比较 这 两 个 网 络 的 计算 复 条 性 。 

7.5 式 (7.,30) 的 条 件 概 率 密度 函数 措 述 的 ME 模型 是 基于 标量 回归 模型 ， 其 中 误差 是 具 
有 零 均值 单位 方差 的 Gauss 分 布 。 

(a) 对 于 对 应 于 多 生 回 归 模 型 的 ME 模型 的 更 一 般 情况 ， 重 新 构造 这 个 等 式 的 公式 ， 其 

中 期 望 啊 应 是 具有 多 维 数 q 的 问 量 ， 而 误差 是 具有 零 均值 和 协 广 差 矩 阵 为 于 的 多 元 
Gauss 分 布 ， 

(hb) 这 个 重新 攀 造 公式 的 ME 模型 和 图 7-8 所 示 的 ME 模型 如 何不 间 ? 

7.6 推 好 用 于 训练 混合 专家 模型 的 随机 梯度 算法 。 
分 层 混 合 专家 

7.7 (a) 构 造 上 共有 三 层 的 HME 模型 的 框图 ， BRM AA Vee, 

(b) 对 (a) 中 描述 的 HME 模型 的 非 终端 节点 写 出 后 验 概 率 。 说 明 在 求 这 些 概率 值 所 涉及 
的 计算 的 递归 性 。 

(c) 对 ta) 中 描述 的 HME 模型 ， 构 造 条 件 概 率 密度 函数 的 公式 ， 

7.8 讨论 HME 模型 和 径 冲 基 兢 数 (RBF) 网 络 的 相似 之 外 和 不 同 之 灶 。 

7.9 对 于 具有 了 两 技 的 HME 模型 的 训练 ， 推 导 描 述 它 的 随机 梯度 算法 的 方程 。 假 设 该 模 
型 应 用 二 叉 决 策 树 ， 
EM 算法 和 它 在 HME 模型 中 的 应 用 

7.10 证 明 在 式 (7.2) 中 描述 的 EM 算法 的 单调 上 升 性 质 。 为 了 这 个 推导 ， 做 下 面 的 事 : 

(a) > 
fíri ð) 
fyld t0) 
RAS EME d 和 参数 向 量 和 时 扩充 后 的 完全 数据 向 量 r 的 条 件 概率 密度 函数 ， 因 
而 不 完整 数据 对 数 似 然 函 数 可 表示 为 

£(8) = L,(8) — logk(r | d,0) 

其 中 (0) = logf.(r19) 为 完全 数据 的 对 数 似 然 函数 。 给 定 d, Mt r 的 条 件 分 布 取 
C(O) AURA ie, HEPR 


kiri d,0) = 





L(8) = 0(0,0(n)) ~ K(8,6(n)) 
其 中 K(0,6(n)) = E[logk(ri d,6) | 
因而 证 明 
E(O(n + 1)) - £(6(n)) = [On + 1),6(n)) - 0(6(n),6(n))] — 
[K(O(n + 1),8(n)) ~ K(O(n),6(n))] 
(ba gl) Abe, u 为 随机 变量 ，Jensen 不 等 式 可 陈述 为 
Fle(l(u)l > g(tElu]) 
APE 为 期 望 算 子 ; MBSA gf ) 为 严格 凸 ， 那 么 等 式 成 立意 味 着 以 概率 1 有 u= 
E| u |€Cover and Thomas. 1991 Jo LFA Jensen 不 等 式 证 明 
K(O(n + 1) ,66n)) - K(6(n),0(n)) <0 

AAT UE BA SE C7 62) fn = 1,2,… 成 立 。 

7.11 EM 算法 很 容易 修改 ， 使 之 适用 于 参数 向 量 6 的 最 大 后 验 (MAP) 佑 计 。 利 用 Bayes 
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ALM, fee EM 算法 上 上- 步 和 了 ~- 步 提供 这 个 佑 计 。 

7.12 对 于 给 定 任 务 ， 用 FM 算法 训练 HME 和 利用 反 向 传播 算法 训练 MP 达到 相似 水 
平 的 性 能 ， 直 观 上 我 们 希望 HME 超过 MILP 的 计算 复杂 性。 给 出 支持 或 反对 这 个 陈述 合理 性 
的 论证 。 

7.13 ”判断 式 (7.66) 至 {7.68) 描 述 的 指示 器 变量 和 相应 的 后 验 概率 关系 的 合理 性 。 

7.14 假说 期 起 响应 d 是 标量 ， 式 {7.75) 描 述 图 11 中 HME 模型 的 专家 网 络 的 加 权 最 
小 平方 最 优化 。 当 期 望 响应 为 多 维 时 怎样 修改 这 种 关系 ? 
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第 8 章 主 分 量 分 析 


8.1 简介 


昼 经 网 络 的 - -个 重要 特征 就 是 它们 具有 向 环境 学 习 并 通过 学 习 改 善本 身 性 能 的 能 力 。 在 
表面 册 革 中 主要 讨论 监督 学 习 的 算法 ， 外 部 教师 为 它们 提供 一 组 有 意义 的 和 目标。 目标 采取 
HERRA - 输出 映射 的 形式 ， 要 求 网 络 对 这 个 映射 进行 逼近 。 在 本 章 和 和 乒 面 的 三 章 中 ， 我 们 
学 习 自 组 织 学 习 (self-organized leaming) iK A 4k HF 5} (unsupervised leaming)。 自 组 织 学 习 的 目 
的 是 为 了 发 现 输入 数据 中 的 重要 模式 和 特征 ， 面 这 些 发 现 是 无 教师 的 。 为 了 这 样 做 ， 系 统 需 
要 提供 一 组 局 部 性 的 规则 ， 这 些 规 则 能 使 它 学 会 计算 具有 特 丈 期望 性 质 的 输入 -输出 映射 。 
AE Fava” 意味 罕 触 权 值 的 改变 只 与 邻近 单 匹 的 状态 有 关 。 用 于 自 组 织 学 习 的 神经 网 络 结构 
模型 比 用 于 监督 学 习 的 模型 更 接近 生物 神经 系统 模型 。 这 并 不 奇怪 ， 因 为 网 络 组 织 的 过 程 是 
脑 组 织 过 程 的 基础 。 

目 组 织 绍 构 有 名 种 各 样 的 形式 。 例 如， 它 可 能 由 一 个 输入 ( 源 )} 屋 和 输出 (表示 } 层 组 成 ， 
输 人 层 到 输出 层 之 间 有 前 馈 连 接 ， 输 出 层 各 单元 回 有 侧 阿 连接 。 另 一 个 例子 是 前 馈 网 络 ， 由 多 
去 组 成 ， 其 中 目 组 织 是 以 层 到 层 为 基础 进行 的 。 在 上 述 两 个 例子 中 ， 学 习 过 程 都 是 按照 预定 的 
AR ADA Cai BL AY el iy Be RSE Aa RARE, AE HRA RE. 

本 章 只 讨论 基于 Hebb 学 习 的 目 组 织 系 统 ， 主 要 集中 于 主 分量 分 析 {Pprincipal components 
analysis)， 这 古 统计 模式 识别 和 信号 处 理 中 进行 数据 压缩 通用 的 一 种 标准 方法 。 


本 章 的 组 织 


木 革 的 材料 组 织 如 下 。 在 8.2 节 用 定性 论据 描述 目 组 织 系 统 的 基本 原理 。 随 后 在 8.3 节 
中 介绍 主 分 量 分 析 ， 这 世 是 本 章 其 余部 分 讨论 的 日 组 织 系 统 的 基础 。 

企 学 握 基 本 背景 材料 后 ， 接 下 来 学 习 一 些 具 蛋 的 目 组 织 系统 。8.4 节 描述 由 单个 神经 元 
组 成 的 简单 系统 ， 它 以 目 组 织 方式 抽出 第 一 个 主 分 量 。8.5 节 将 讨论 更 复杂 的 系统 ， 它 为 具 
有 前 馈 连 接 的 单 层 网 络 形式 ， 通 过 对 以 前 简单 系统 的 扩展 ， 抽 出 所 有 的 主 分 量 。 在 8.5 节 将 
给 出 一 个 关于 图 像 编 码 的 具体 实例 演示 这 个 过 程 。8.7 忆 将 闭 述 另 一 个 具有 相似 功能 的 自 组 
织 系统 ， 这 个 系统 史 加 复 洲 ， 因 为 它 包含 侧 同 连接 

在 8.8 节 中 给 出 利用 神经 疝 络 进行 主 分 量 分 析 的 各 种 算法 的 分 类 。 随 后 8.9 节 在 数据 分 
类 的 基础 上 将 算法 分 成 自 适 应 方法 和 集中 式 方 法 。 

TE 8.10 SHRED ROHATARBRAMR HFFA, ARR 6 AN RHO 
其 机 模型 中 讨论 的 Mercer EMEX, 

在 8.11 和 以 对 主 分 量 分 析 的 一 些 最 后 思考 绪 束 本 章 。 


8.2 目 组 织 的 一 些 直 观 原则 
像 剖面 提 到 的 那样 ， 和 月 组 织 ( 无 监督 ) 学 习 按 照 预定 的 规则 和 对 激活 模式 的 啊 应 重复 修改 
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MARRARA, HEE RRRAK EH. “GR, MARKEE, REA A HR RE R 


-AMHRA ARRA KA T F éi (Turing, 1952): 
局 部 相互 作用 可 以 导致 整体 的 岸 。 


这 个 观察 具有 重要 意义 ; HAF RIAA LHe. J, Mea SR boc Bite ae 
随机 的 局 部 作用 ， 能 够 结合 成 整体 有 序 的 状态 ， 并 最 终 症 空间 模式 或 时 间 节 夺 上 形成 连贯 行 
为 ; 这 些 是 日 组 织 的 本 质 。 

网 络 组 织 在 两 个 不 同 层次 的 发 牛 ， 两 个 层次 之 了 问 以 反 铺 环 的 形式 相互 作用 。 这 两 个 层次 
Fj: 

© EAE. heise ae Ae S n ee aa o 

。 et, MTERA OTE, Pes EBS (58 Ba) h Toe RH ig 

号 得 以 修改 

为 了 达到 网 络 的 自 组 织 ( 而 非 稳 定 )， 在 突 触 权 仁 变化 和 活动 模式 变化 之 间 的 反馈 必须 是 
正 的 。 因 此 ， 可 以 得 到 有 目 组 织 系统 的 第 一 个 基本 原则 (von der Malsburg, 1990a) : 

原则 1 窒 触 权 便 的 修改 趋向 于 目 增 强 。 

突 稻 权 值 的 修改 必须 基于 局 部 可 用 信号 ， 妈 前 突 触 和 后 突 甬 的 信号 ， 自 增强 过 程 被 这 种 
要 求 所 限制 。 昌 增强 和 局 部 性 的 要 求 确 定 这 样 的 机 制 ， 强 的 突 触 导致 六 突 触 信 导 和 后 突 触 信 
号 相 一 致 。 通 过 这 种 一 致 性 又 使 突 甬 的 强 府 增加 。 这 里 所 描述 的 机 制 实际 上 是 Hebb 学 习 假 


TRH HR 


为 了 使 系统 稳定 ， 必 须 存在 对 有限 "资源 (例如 输入 的 数量 和 能 量 资 源 ) 的 一 些 况 争 形 
式 。 有 具体 地 ， 网 络 中 的 一 些 突 触 强度 增加 必须 以 其 他 突 触 的 减弱 来 补偿 。 因 此 ， 只 有 “成 功 ” 
的 宪 甬 才能 生长 ， 而 不 成 功 的 将 站 弦 并 最 终 消 失 。 从 这 个 观察 缚 来 可 得 到 自 组 织 的 第 二 个 原 
Wi von der Malsburg, 1990a) : 

原则 2 PURER PRAM See Ma Se CE RE eK CR aS ) 
BERR fi 

7S at BS YH A tE IEA — Je Ag FY BE o 

XY APR, RTE PS EA HE RAR A TABI ERR, 
ARHAR Fan) BEE, MEER a Se a ae Eo A Be AT a S kA 
灌 活 该 神经 元 。 因 此 我 们 可 以 抽象 出 第 三 个 日 组 织 原 则 (von der Malsburg, 1990a) : 

原则 3 突 触 权 值 的 修改 趋向 于 协作 

尽管 网 络 中 存在 竞争 ， 活 哮 突 扔 的 出 现 能 够 增强 其 他 突 触 的 适应 。 这 种 肉 作 形式 的 出 现 
可 能 归 因 于 突 触 的 可 塑性 ， 或 归 因 于 外 部 环境 中 出 现 证 家 的 条 件 同时 刺激 前 突 触 神 经 元 。 

上 而 所 描述 的 三 个 自 组 织 原 则 只 与 网 络 本 身 有 关 。 然 而 为 了 自 组 织 学 习 执 行 有 用 的 信息 
处 理 切 能 ， 环 境 提供 给 网 络 的 激活 模式 中 必须 存在 宛 余 (redundancy)。 元 余 间 题 将 在 第 10 章 
Shannon 信息 论 框 染 中 讨论 。 现 在 是 以 提出 日 组 织 学 习 的 最 后 一 个 原则 如 F Barlow, 1989) ; 

原则 4 激活 模式 中 次 序 和 结构 表示 元 余 信 和 息 ， 神 经 网 络 以 知识 的 形 陈 得 到 这 些 元 余 信 
AB, mie BARS OSA. 

我 们 可 以 从 统计 参数 的 观测 中 获得 这 些 和 误 ， BIR, MAA RWS, Fz FTA 
FE 
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ET BAe A 1 至 原则 4 为 本 意 讨 论 主 分 量 分 析 和 下 一 章 描述 Kohonen 目 组 织 
映射 的 自 适应 算法 提供 神经 生物 学 的 基础 。 这 些 原则 在 其 他 许多 受 神经 生物 学 考虑 江 励 的 目 
组 织 模 型 中 也 被 采用 。 仁 得 一 提 的 这 样 一 种 模型 是 哺 
及 动物 视 放 系统 的 Tinsker # # (Linsker, 1986) . 


和 目 组 织 的 特征 分 析 


视觉 系统 中 的 信息 处 理 是 分 阶段 的 。 具 体 地 ， 一 
些 简单 的 特征 如 对 比 度 和 边缘 方 癌 是 在 系统 的 早期 阶 
段 分 析 的 ， 而 更 精致 复 淋 的 特征 则 在 后 期 阶段 进行 分 
AT. El 8-1 表示 与 视觉 系统 相似 的 模型 网 络 的 整体 结 
构 。 在 Linsker 的 模型 中 ， 图 8-1 的 网 络 神经 元 组 织 成 
二 绯 压 ， 从 一 压 到 下 一 后 具有 局 部 前 局 连接 :每 个 神 
经 天 只 接受 前 一 层 位 于 .个 覆盖 区 内 有 限 数 日 神经 元 
Wie, JER DR BR AS ae Ia (receptive field)。 网 络 接 
党 域 在 突 触 的 形成 过 程 中 起 关键 作用 ， 因 为 它们 使 一 
屋 中 的 神经 元 对 前 -一 层 神 经 活动 的 空间 相关 性 的 反应 
成 为 可 能 。 假 设 下 面 两 个 结构 特征 ; 

1. 在 整个 神经 元 形成 过 程 中 ， 一 日 突 触 连接 被 选 
择 ， 其 位 置 就 国定 了 。 

2. PSE LABRET REALS E o 图 8-1 月 到 应 网络 组 件 布 局 

模型 结 人 台 Hebb 型 突 触 修 改 的 协作 和 竞争 学 习 的 方面 使 得 网 络 输 出 最 优 区 分 输入 总 体 ， 
这 需要 通过 目 组 织 学 习 从 一 技 到 一 层 的 基础 上 处 理 。 即 学 习 计 程 在 姓 理 下 一 层 之 前 允许 全 面 
形成 该 层 自身 的 自 组 织 特征 - 分 析 {feature-analyzing) 特 性 。 在 Linsker( 1986) 中 模拟 结果 与 猎 
和 猴子 的 视觉 形成 的 喇 期 具有 非常 相似 的 性 质 。 斌 识 到 视觉 系统 的 高 度 复杂 性 ， 面 Linsker 
考虑 的 非常 简单 的 模型 能 形成 相似 的 特征 - 分 析 神 经 元 ， 这 的 确 值 得 注意 。 此 点 并 非 意味 着 
哺乳 动物 的 视觉 系统 的 特征 -分析 神经 元 形成 的 方式 与 上 面 的 Linsker 模型 描述 的 方式 完全 
相同 。 相 反 ， 它 只 能 说 明 按照 Hebb 学 悦 规 则 形成 突 触 权 值 ， 再 由 这 种 相对 简单 的 层 状 网 络 
就 可 产生 这 种 结构 。 

但 是 ， 在 本 章 中 我 们 主要 的 兴趣 是 主 分 量 分 析 利 利用 基于 Hebb 和 学习 的 自 组 织 系统 起 样 


8.3 主人 分量 分 析 


在 统计 模式 识别 中 ， 一 个 常见 的 问题 就 是 特征 选择 或 特征 提取 。 特 征 选 择 是 指 将 数据 空 
间 变 换 到 特 在 空间 的 过 程 ， 在 型 论 上 与 原始 数据 空间 具有 相同 的 维 数 。 然 面 ， 我 们 和 布 望 设计 
一 种 变换 使 得 数据 集 由 维 数 较 少 的 有效” 特征 来 表示 ， 而 不 减少 原始 数据 所 包含 的 内 在 信息 
内 容 ; 挽 和 句 话说 ， 数 据 集 进行 了 锥 孝 压 缩 。 具 体 来 说 ,假设 有 一 个 m 维 的 癌 量 x， 希望 压 第 
到 i 维 ， 其 中 < mm。 如 果 我 们 简单 截断 x， 所 市 来 的 均 方 误差 等 于 低 掉 的 各 分 量 的 方差 之 
Al, AUR PRM: 是否 存在 一 个 可 道 的 线性 变换 T， 使 得 对 Tx 的 截断 在 均 方 误差 
BX Ri? 显然 要 求 变 换 后 的 其 些 分 量具 有 较 低 的 方差 。 主 分 量 分 析 (principal components 
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- = -— —, 7. —, =, -—, m, —, —, —, —, —, = —, mm 
co 


择 。 在 本 章 我 们 讨论 基于 Hebb 学 习 算 法 来 完成 数据 向 量 的 主 分 量 分 析 *。 
& XARA m SEM PLS, I KRHA AS, BD 
EIX] = 0 
其 中 EE 是 统计 学 习 中 的 期 望 运算 符 。 如果 系 的 均值 不 是 0， 在 执行 分 析 之 前 先 减 去 其 均值 ， 
令 Qik m PaE, KEE AK. OPEB LAO XA GHA, ERA 
A = X'q = q’X (8.1) 
WESTRA TF 
lal = (g0) = 1 (8.2) 
投影 4 也 是 随机 变量 ， 其 约 值 和 方差 与 六 的 统计 有 关 。 出 假设 X 的 均值 为 0， 推 知 4 的 均 
值 也 为 0: 
FLA} = 9 FLX] = 0 
AWARE AH], TSH 
o = ELA] = E[(q’X)(X"q)] = q’ELXX"]q = q Rg (8.3) 
mx m JERR EEL a XO A KHER, JESSE MWR X AE YC, 


R= £{XX"] (8.4) 
我 们 观察 到 相关 知 阵 R Gates, ER 
R = 及 (8.5) 
由 这 个 性 质 知 ， 如 果 a 和 bb 为 任意 m x1 向量， 那么 
a Rb = b’ Ra (8.6) 
由 式 (8.3) 看 出 ， 投 影 4 的 方差 oC 是 单位 向 量 g HR, WS 
plg) = « =q Rq (8,7) 
BEF FET Ay AAA a AA EEH (variance probe). 


主 分 量 分 析 的 特征 结构 


下 太 讨 论 的 问题 是 在 欧 几 里 德 范 数 的 约束 条 件 目 ， 找 出 单位 向 景 g 沿 wu(q) 所 具有 的 极 
( extrema] ) 值 或 稳定 (stationary) 值 (局 部 最 大 或 最 小 }、 这 个 问题 的 解 忆 依赖 于 输入 问 量 的 相关 
ERE R 的 特征 结构 、 如果 和 为 单位 向 量 使 得 方 营 探 针 oO MATRA, IBAA aE q fE 
意 小 的 扰动 gq， 我 们 发 现 直 到 Sq 的 一 阶 项 将 有 
plq + êq) = piq) (8.8) 
现在 ， 从 式 {8.7) 给 出 的 方差 探 针 定义 ， 我 们 有 
pig + oq) = (q+ Sq) Riq +q) = q Rq + 2(dq)’ Rq + (5q) Rêq 
在 第 2 个 等 式 中 ,已 经 利用 式 (8.6)。 乱 略 项 (8q) Req 并 利用 式 (8.7) 的 定义 ， 可 以 写成 
plq + 8q) = q Rq + 2084) Rq = gq) + 2(3q) Rq (8.9) 
因此 将 式 (8.8) 代 人 式 (8.9) 得 
(89) Rq = 0 (8.10) 
对 q 而 言 ， 任 意 扰动 6q 是 不 允许 的 ; 相反 对 扰动 进行 限制 ， 侈 使 g+ ôq 的 欧 几 里 德 范 
SCA 1 的 扰动 是 允许 的 ， 即 
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lq+Sgq|l =1 
或 等 价 地 
(q+ òg) (q + èq) = 1 
因此 ， 根 据 式 (8.2)， 我 们 要 求 对 6q 的 一 阶 项 有 
(8q)'q = 0 (8.11) 
LARE, W3 Bg 必须 与 g EX, HERE q 的 垂直 方向 上 变化 是 允许 的 。 
通常 单位 问 量 9 在 物理 意义 上 是 无 最 纲 的 。 从 而 如 果 结 合式 (8.10) 和 (8.,11)， 闭 么 我 们 
必须 在 式 (8.11) 中 引入 一 个 出 例 因 子 使 得 它 和 相关 算 阵 R 中 的 元 素 有 相同 的 量 网 。 于 是 可 
以 写成 
(S Rq - 4(8q)"q = 0 
或 等 价 地 (ôg) (Rq9 -29) =0 (8.12) 
式 (8.12) 成 立 的 充 要 条 件 为 
Rq = Aq (8.13) 
这 个 方程 控制 单位 问 量 q ETS AT TR (QAR. 
式 t8.13) 被 认为 是 特征 俩 问 题 ， 通 带 在 线性 代数 中 碰 到 (Strang,1980 )。 仅 对 特殊 的 A 
让 问题 有 非 平 凡 解 ( 即 q0), A 被 称 为 相关 矩阵 R 的 特征 值 ， 对 应 的 q 被 称 为 特征 向 量 , 
相关 和 矩 隆 的 特征 值 必 须 是 非 人 负数。 假设 它 的 特征 值 互 不 相同 ， 则 对 应 的 特征 向 量 是 惟一 
Hy. S mx m RM RARER EN, MAn, MY Ave OS RE LE fe] Bet 3 BY FE gy. qu. Ino 我 
们 可 写成 


Rq; = 4,q,, Tn (8.14) 
令 相 应 特征 值 按 降 序 排列 ， 即 
A >A > > A > (8.15) 
这 样 Ay = Anes 令 对 应 的 特征 癌 量 用 于 构成 一 个 mx m FES 
Q = [gg 时 (8.16) 
我 们 可 以 结合 式 (8.14) 中 的 严 个 方程 为 一 个 方 得 组: 
RQ = QA (8.17) 
A ACA REET A AE, B 
A = diagla, sds AA (8.18) 
EE QEEX( OE), MRA CA mÆ R AERE AEE A: 
g'g, = w J=? (8.19) 
QO, 了 
式 (8.19) 要 求 不 同 的 特征 值 。 等 价 地 ， 可 写成 
QQ=1 
由 此 可 以 推导 出 矩阵 ONES EHS, Fe 
Q -= Q” (8.20) 
REKREASI TARA AREE R A E REA 
Q'RQ =A (8.21) 


或 展开 为 
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EB 2DE EAEE RE EET i. FRM R A A HAEE 
FURRE E] bt dean A 
R = Saad (8,23) 
这 称 为 谱 定 理 。 对 所 有 i, Shag’ WEA 1. 
式 (8.217 和 (8.23) 是 相关 和 天 阵 及 的 特征 分 解 {eigendecompositiony 的 两 个 等 价 表示 。 
4p 4) Hy ASE 及 的 特征 分 解 从 根本 上 来 说 是 一 琢 的 ， 只 是 从 椒 同 的 方面 观 察 问 题 。 
从 式 (8.77 和 (8.23) 可 以 看 出 方差 探 针 和 特征 人 的确 相等 ， 表 示 为 
gq) =A. fF = 1,2,,m (8.24) 
RE, MES} or Ar ARE Sy PT aT A AB 
1. 零 均值 的 随机 向量 X CE R 的 特征 问 量 定义 为 单位 癌 量 g, RREA, A 
着 它们 方差 探 针 gp(q;) 取 得 极 值 。 
2. 相应 的 特征 值 定义 方差 探 和 针 gtu) 的 极 值 。 


基本 数据 表示 


TAREE x AANE X 的 实现 。 
A FEMAR gA m 个 可 能 的 解 ， 我 们 发 现 数 据 问 量 x 有 m AA RERIT ee 
特别 地 ， 从 式 (8.1) 我 们 注意 
t; = Q X= Xq, 了 = 1,2,…,m (8.25) 
其 中 a ce x FES u Aree NEA EB. a IFES SE. Mx 具有 相 癌 的 物理 
量 纲 。 式 (8.25) 的 公式 被 看 作 是 一 个 分 析 。 
为 了 从 投影 a 中 准确 重建 原始 数据 向 蕙 x， 我 们 可 以 采取 下 面 的 步骤 。 首 先 ， 将 一 组 
投 矿 ia1j=1,2,…,m| 组 合成 一 个 单一 的 问 量 ， 表 示 为 
a= [ait sa] = [x hx hx d] = Qx (8.26) 
接着 我 们 在 式 (8.26) 的 两 边 左 来 矩阵 @Q， 再 利用 式 48.20) 的 关系 。 因 此 ， 原 始 数 据 问 量 革 可 
重建 如 为 
(8.27) 


它 可 被 看 合成 公式 。 在 这 种 意义 上 ， 单 位 向 最 q, 表示 数据 空间 一 组 基 。 确 实 ， 式 (8.27) 只 是 
_ 个 坐标 变换 ， 根 据 该 变换 数据 空间 中 的 点 x 变换 到 特征 空间 的 点 a. 


维 数 减 缩 


从 统计 模式 识别 的 观点 看 ， 主 分 量 分 析 的 实际 价值 在 于 它 为 维 数 减 缩 提供 有 效 的 方法 。 
具体 地 ， 通 过 丢 莽 式 (8.27) 中 方差 小 的 项 ， 保 留 方差 大 的 项 ， 可 以 减少 有 效 数 据 表 小 所 帝 的 
PFE AE Sh A, A, PEAT RAAI 个 最 大 特征 值 。 我 们 截断 式 (8.27} 中 的 i 
项 后 和 面 的 震 开 式 可 以 得 到 数据 问 量 x 的 近似 
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i a 
& = >) 44 = 'q,.4.°''.q) | k igm (8.28) 


J= 


(ty 


对 给 定 的 原始 数据 向 量 x， 可 以 用 式 (8.25) 计 算得 到 保留 在 式 (8.28) 中 的 主 分 量 如 下 ; 


f 
ay y: 
下 
a ‘hb 
i = - |X, H = M (8.29) 
a, H 


MOR™ PR 的 线性 酸 影 ( 即 从 数据 空间 到 
特征 空间 前 映 射 }) 是 对 数据 向 量 HE 
示 的 编码 有 器， 如 图 8-2a 所 示 。 相 应 地 ， 从 
R BR” 的 线性 投影 {有 即 特 征 空间 到 数据 
空间 的 上 映射) 表示 为 对 原始 数据 向量 x 近 
亿 重 构 的 解码 器 ， 如 图 8-25 所 示 。 注 意 式 
(8.28). (8.29) Fas Ay LH CK) FF 
EEA. A. A 并 不 参加 计算 ， ERA 
SP AMER: KE Bg TES ite AA SRE BS ee FT E EY SE o>) 
的 数量 . 
逼近 误差 向 量 e 等 于 原始 数据 向量 x 
FUE I RE E ZEA 
e=X-Ê (8.30) 





将 式 (8.27) 和 (8.28) 代 入 式 (8.30) 得 ý 

误差 向 量 ee HEME OER EER, : 

如 图 8-3 Brox, MA, i Me HAR N 
WS. AAR (8.28) AC8. 31) ATE ir o] 

以 表示 如 下 : i x 


， 图 8-3 向 量 x、 它 的 重建 形式 六 和 
Fe 了 
ef = Daq 2 iA 误差 向 量 e 的 关系 示例 


mE 


= >) at 和 QU = 0 (8.32) 


i=i+l fel 


其 中 我 们 利用 了 式 {8.19) 的 第 二 个 条 件 。 式 (8.32) 称 作 正 交 性 原理 。 
由 式 {8.7} 和 (8.22) 的 第 一 行 ， 数 据 向 量 x 的 m 个 分 量 的 总 方差 为 


Sy - DA (8.33) 


f=! 


其 中 of 是 第 j TENE a, 的 方差 ， BEHR] 个 元 束 的 总 方 莽 为 
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Sie = SA (8.34) 
(Ls UR Ze at x - 2 PHU- m) PRA RAEN 
eA sa ok (8.35) 


PPE(BA;.,.°°1.A, ABR R AREE TRDA m- 2) PEA; CERT Be 
的 式 (8.28) 中 丢弃 了 它们 所 对 应 的 项 这 些 特 征 值 越 接近 0， 降 维 (对 x 进行 主 分 量 分 析 所 
可 致 的 生来 ) 后 保存 原始 数据 中 的 信息 量 就 越 有 效 。 因此， 为 了 对 输入 数据 进行 维 数 纪 减 ， 
我 们 计算 输入 数据 向 量 的 相关 犯 阵 及 的 特征 值 和 特征 向 量 ， 然 后 将 原始 向 量 投 影 到 m 个 优 
势 特 征 值 对 应 的 特征 向 量 生 成 的 子 空 间 。 这 种 数据 表示 方法 通常 称 为 子 空间 分 解 (40ija， 
1983) 。 

例 8.1 双 变 量 数据 集 为 了 说 明 主 分 量 分 析 的 应 用 ， 考 虑 双 变 旺 ( 二 维 ) 数 据 集 的 例 
F, HORN 8-4， 其 中 假设 两 个 特征 轴 的 标 度 近似 相同 、 图 中 水 平 轴 和 垂直 轴 表 未 数据 集 的 目 
然 坐 标 轴 。 标 号 为 | 和 2 旋转 坐标 轴 是 应 用 这 个 数据 集 的 主 变量 分 析 产 生 的 结果 。 从 图 8-# 
可 以 看 出 数据 集 投 影 到 1 号 轴 上 抓 住 了 数据 的 主要 特征 ， 即 具有 双 峰 { 即 在 它 的 结构 上 有 两 
个 聚 交 ) 的 特点 。 的 确 ， 数 据 投影 到 轴 1 的 方差 比 投影 到 别 的 轴 上 的 大 。 相 反 ， 当 号 射 到 轴 
2 时 ， 数 据 内 在 的 双 峰 特征 完全 模糊 。 





7 ead a4 
R a aa a E ` = 
E 4 a Oo weet, pa 
Co LEBER? 
" at z x Na, 
pi a y pai 
A J aa a Fy 
et? = 4 
z a J ey? 
Fi 
1 
ne, 
2 2 2 
rt 
d 2 4 & 8 


图 8-4 二 维 平 面 的 -组 数据 ， 它 们 投影 到 两 个 办 1 和 2 的 密度 图 
投影 到 斩 1 有 最 大 方差 ， 清 楚 表 明 数 据 的 双 峰 或 聚 类 特征 


从 这 个 简单 的 例 手 中 可 以 得 到 一 个 重要 的 结论 。 明 然 ， 带 有 形 类 结构 的 数据 集 在 带 有 水 

平 轴 和 垂直 轴 的 二 维 平 面 图 上 很 明显 ， 但 在 实际 中 并 不 总 是 这 样 。 在 更 一 般 的 高 维 数 据 集 
中 ， 可 以 想像 数据 固有 的 聚 类 结构 被 隐藏 ， 要 想 看 到 它 必须 进行 与 主 分 量 分 析 相 似 的 统计 分 

#7 {Linsker, 1988a `. = 
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8.4 基于 Hebb HRA IEIS ik ae 


自 组 织 神经 网 络 的 行为 各 主 分 量 分 析 的 统计 方法 之 间 存 在 密切 的 联系 。 在 本 节 ， 我 们 将 
有 通过 人 建立 一 个 帝 名 的 结果 来 证 实 这 个 关系 : 突 触 权 值 采用 Hebb 自 适应 规则 的 单个 线性 神经 
元 能 够 形成 关于 输入 分 布 第 一 个 主 分 量 的 x(n) 
io HE REC Oja, 1982). 

A TAa AEH, FOS TE An El 8- Sa 
所 示 的 简单 模型 。 该 模型 在 模 卉 输出 为 它 
的 斩 入 的 线性 组 合 这 个 意义 下 是 线性 的 。 
神经 元 通过 m Tot SAAHA wj，,...， 
W m HE fh Ee EK m 个 输入 信号 二 1 x (A) 
fysen BEAU AYA LH y 为 a) 





WE > WX, (8.36) x {nt} x(n} 
tx | 


ERIS RA Ta, Be eh 
经 元 ， 所 以 涉 需 要 用 双 下 标 表 示 网 络 究 触 nya) 
AL{A 
根据 Hebb 学 习 的 假设 ， 当 前 突 触 信 lll | 
5 x Aa Rie Ss y 一 至 时 ， 突 触 权 值 随 
iE MR, ARH, ATS Ak 
win +1} = win) + nyina), 
i= 1,2,-,m (8.37) 图 8-5 最 太 特 征 滤波 器 信和 号 流 图 表示 
其 中 表示 离散 时 间 ， 是 学 习 率 参数 。 [8.36) 的 图 b)zN(8.41)41(8.423 4 
但 是 ， 这 个 学 习 规 则 的 基本 形式 会 导致 突 触 权 值 w, 无 限 地 增 大 ， 这 在 现实 上 是 不 能 接受 的 。 
在 突 触 权 值 自 运 应 学 习 规划 中 采用 某 种 程度 的 饱和 度 或 归 一 化 ， 可 以 解决 这 个 问题 。 利 用 归 
一 化 方法 具有 在 神经 元 的 突 触 权 值 间 由 于 有 限 资 源 导 致 竞争 的 效果 ， 从 自 组 织 的 原则 2， 这 
是 稳定 性 的 关键 。 从 数学 上 来 考虑 ， 方 便 的 归 一 化 形式 描述 如 下 {Oia,1982): 
win) + nyina (nn) 
salen EEC + ayn) a(n ey 
PLE Gp GE RDS Pe ET ZS A A, (RE BBR 1 很 小 ， 可 以 将 式 {8.38) 展 
开 成 六 的 寡 级 数 形式 ， 所 以 写成 





b) 


win +l) = wn) + nn rR) yin)w,Cn)] + OCP) (8.39) 

其 中 046) 项 表示 和 或 音 高 次 部 分 。 因 为 1 很 小 ,可 以 忽略 这 一 项 ， 因 此 近似 式 (8.38) 到 ? 
的 一 阶 项 如 下 : 

min +l) = w(tn)+ n(n x(n) — ¥(n)w,(n)] (8.40) 


78.40) 44 Mag AE y(n) x, (rn) pean R AAR (EE aE BY Hebb 修改 变 ， 这 符合 自 组 织 原 则 1 描绘 
的 自 放 六 效果 。 依 据 原 则 2， 该 式 中 含有 负 项 -y(n)w(n) 导 致 稳定 ; CERIA x, (0) 
一 种 恢 埋 于 相应 罕 触 权 值 w(n) 和 输出 y(n) 的 形式 ， 表 示 为 
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8 (an) = TAR) rin)w (tn) (8.41) 
x. (nA) LAER oP ORR A, FAT OT ARAD EREA. 40) A A 
MUA F : 
win + = mín) + nytn)}x' ln) (8.42) 
PES ORD AEE EF] h AA SAER, APE 8-5 所 未 。 根 据 式 (48.36)， 图 
8-Sa 的 信号 流 图 表明 输出 yn RE PR we, (nn) ,w(tn),…,w,(n)。 图 8-5b 的 信和 导 流 图 提 
FATK(8.41) ACS. 42) RR; 图 中 的 传递 参数 z :表示 单位 延迟 操作 符 。 在 图 8- Sa 中 所 产生 
的 输出 y(n) 在 图 8-5b 中 作为 传递 系数 。 图 8- 5b 清楚 地 展示 作用 于 神经 元 的 内 部 反馈 的 下 
列 两 种 形式 
* 根据 外 部 输入 x,(n)， 自 放大 的 正 上 反馈 使 得 突 触 权 值 w,(n} 增 加 。 
= 由 于 一 y(n) 的 负 反 馈 控 制 w;(n) 的 增 大 ， 因 此 导致 突 触 权 值 ww (nn) 的 稳定 。 
素 积 项 -y(n) w(tn) 与 在 学 习 规则 中 经 常用 到 的 让 访 因 子 或 洪 漠 因子 有 关 ， 介 存在 差 
All: 对 于 较 强 的 啊 应 y(n)， 遗 忘 因子 变 得 更 加 显著 。 这 种 控制 现象 有 神经 生物 上 的 支持 
(Stent, 1973), 


算法 的 矩阵 形式 


为 了 描述 上 的 方便 ， 令 
x(n) = [xin ain), earn Cn) ]* (8.43) 
和 wind =(w (a). Cn), w, (a)? (8.44) 
输入 向 量 x(n ) FOF Ae wn ) 通 常 都 是 随机 向 量 的 实现 。 用 这 个 向 量 符号 可 以 重 写 式 
(8.36) 为 内 积 形式 如 下 : 


y(n) =x (nwn) = w'(n)x(n) (8.45) 
同 梓 地 ， 可 以 重 写 式 (8.4) 为 
win+1) = won) + ny(n) x(a) - y(n) wn) ] (8.46) 


HEFL (8.45 ALA (8.46) 

win +1) = wen) + nix(n)x’(n)wln) -w (Cn) x(n)x’(n}win)wln)] (8.47) 

式 (8.47) 所 示 的 学 习 算 法 为 非 线 性 随机 差分 方程 ， 这 使 得 该 算法 的 收 钱 性 分 析 在 数学 上 
很 难 进 行 。 为 了 得 到 收 敏 性 分 析 ， 我 们 先 简 单 介绍 随 机 逼近 算法 收 伍 分 析 的 一 般 工 具 ， 


渐进 稳定 性 定理 


式 (8.47) 表 示 的 目 组 织 算法 是 一 般 的 随机 下 近 算法 
win +l) = win) + n(ndaCwln),x(n)), TE N T (8.48) 

的 一 种 特殊 形式 。 序 列 C+) EE ip BP 

R $f He SH (update function)h(",") 是 具有 菜 些 正则 性 条 件 的 确定 性 函数 。h(，,:) 和 标量 
厅 列 水 ') 完 全 确定 算法 的 具体 结构 。 

这 里 描述 的 过 程 的 目的 是 将 随机 非 线性 差分 方程 (8.48) 和 确定 性 的 常 微分 方程 (ODE) 联 
系 起 来 。 于 是 微分 方程 的 稳定 性 和 算法 的 收敛 性 联系 在 一 起 。 这 个 过 程 是 很 一 般 的 工具 ， 具 
BR HHE. 24ra H Ljung 1977) Kushner and Clark( 1978 3th v7 HH, 4A ACR E Ae - 
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OO。 RN — ae] TE EE EE EE EE = EE se 


为 了 于 始 ， 过 程 假设 式 (8.48} 描 述 的 随机 进 近 算法 满足 下 面 的 条 件 ( 用 我 们 的 术语 胡 


IR): 
1 .n(n) 为 下 降 的 正 实数 序列 ， 使 得 我 们 有 
(a) Jinin) = æ (8.49) 
(b) > ín) < % tp > 1 (8.50) 
(c} y(n} *O nem (8.51) 


2, SAAFI (SS ew) A A 1, 
3. 更 新 图 数 hw, x) whl x EAn, AA Seen la] Les FR. 
4, 对 每 个 w 存在 极限 


ACw) = limk[h(w,X)i (8.52) 
统计 期 望 运 算 符 EPG) XR. X MISEHL x Hem. 
5. 名 微 分 方程 
Sw) = h(wit)) (8.53) 


具有 局 部 渐进 稳定 解 (Lyapunor AX F), EP 上 表示 连续 时 间 ，Lyapunoy 意义 的 稳定 性 在 第 
14 章 讨 论 。 

6. Sq #eANA(8.53) NE, BAIR S| RBU); 吸引 域 在 第 14 SEY, 那么 参数 向 量 w 
Cn) LARS 1 2B AP CSF RE AIRS RR Qo RTEA, 

RER 6 TRIBES, A, BIFA REREAD A EEE 
位 计 值 移 到 期 望 极 限 的 必要 条 件 。 条 件 1(b) 给 定 mtn) 趋向 0 有 多 快 的 条 件 ; 这 比 常用 的 条 
{+ 


23 yin) < œ 

的 限制 更 少 。 条 件 4 使 一 个 微分 方程 与 式 (8.48) 所 示 的 算法 相 联 系 成 为 可 能 的 基本 假设 。 

考虑 递归 等 式 (8.48) 描 述 的 随机 通 近 算法 ， 它 满足 假设 上 至 6。 那 么 我 们 可 以 陈述 这 类 
随机 允 近 算法 的 渐进 稳定 性 定理 如 下 (Lijung,1977;Kushner and Clark, 1978): 

limwt n) = Q 以 概率 1 经 常 匹 限 地 成 立 (8.54) 

但 是 ， 我 们 强调 这 里 描述 过 程 虽然 提供 关于 算法 (8.48) 的 渐进 性 质 的 信息 ， 但 它 并 没有 
告诉 我 们 迁 代 次 数 n 应 该 选 多 大 才能 使 分 析 结 果 可 用 。 此 外 ， 在 利用 式 (8,48) 算 法 解决 时 变 
参数 回 晤 的 问题 时 ， 要 求 

nt n) — 0 nw 

EAH TES, A ARF 14c) 规 定 。 我 们 可 以 通过 指定 nm 的 一 个 很 小 的 正 数 来 克服 后 面 这 个 困 
HE, 指定 的 数 的 大 小 由 应 用 决定 。 随 机 帝 近 算法 在 神经 网 络 的 实际 应 用 中 经 党 这样 做 。 


了 大 特征 滤波 器 的 稳定 性 分 析 


在 稳定 性 的 ODE 方法 中 ， 我 们 具备 妍 究 由 式 {8.456) 表 示 的 递归 算法 的 收敛 行为 所 适 的 
工具 ， 正 如 这 里 的 描述 ， 这 个 递归 算法 与 最 大 特征 滤波 器 相关 。 
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为 了 满足 渐进 稳定 性 定理 的 条 件 1， 我 们 令 
l 
n(n) = = 


长 次 ， 从 式 (8.47) 注 意 更 新 国 数 hw, x 
h(w,x) = x€n)y(n) — ¥°(a)wn) 
一 x(n)x’€n)wea) -|w njxtn}x (an) wlan) jwin) 
EX, FRAC Re EER. EPR hiw, X) PRL OX 的 一 个 实现 x 得 到 
式 (8.55)。 由 条 件 4， 我 们 对 系 求 取 hw ORJE, MA A E 
h= lim ELXCn) xX (njwin) — Cw (rn) Xn) Xn) wlan) won) | 


(8.55) 


(8.56) 
= Rw) -iw (œ )Rw( 2) wl) 
其 中 RSP BX AA BSL KS, wl ww ) ER A ERE 
由 条 件 池 并 根据 式 18.537 和 (8.56)， 我 们 寻找 非 线 性 微分 方程 
w(t) = hiw OD) = Rw.) -|w {tIRw i) wir) (8.57) 
HEEE. REECE RHE RSE aE E w O Rah 
w(t) = AOT (8.58) 


其 中 q 是 RAS TH- ERERNR, 系数 (71) 是 向 量 wE qg 于 的 时 变 投影 。 将 式 
(8.58) 代 入 式 (8.57)， 并 使 用 基本 定义 








Eq; = Acq 
种 q Ra, =A, 
其 中 心 ce q, 相关 的 特征 但 ， 最 后 我 们 得 刘 
了 de = Dahl Jq; 一 D1) D0.(1)q (8.59) 
土 价 地 ， 我 们 可 写成 
AA = MO C) ~ OLE) ZOI kos dee (8.60) 


从 而 我 们 将 式 (8.48) 的 随机 逼近 算法 的 收 化 性 分 析 归 结 AAU M ERA (principal mode), 二 的 
aA H (8.60) bI RETEN 

KETA Pix k MRR. TA AAA AG TROL ie i<kem. fait IAM 
Fk=l; mAx(n) Fl win) AR. RE EX MATE O. 

ÈRI 1< <m。 为 处 理 这 种 情况 我 们 定义 


HES 
a(t) = T le kam (8.61) 


首先 假设 (1) 40, Arte w(O) MAUR, AURR] AA., Ssh (8.61) Tye] 2 SK 
导数 得 到 





da,(t) 1 d0,(8) Okt) CO 
di 











(8.62) 
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其 次 ,将 式 (8.60) 代 入 式 (8.62)， 利 用 式 (8.61) 的 定义 并 和 化 简 结 果 ， 我 们 得 到 





dd == (A, ~ A, jar Ce), lek am (8.63) 

(ELA ABC BEE ROPE (4. AAR PLP HES, MA 
Ay > ap A pot Dp A, > O {8.64} 
FH JE PEAS A, - A, AE, FABO En -个 时 间 常 数 的 倒数 、 所 以 ， 从 情况 工 发 现 ， 
a, {ti} ~0 yt» 的 MFrle ke m (8.65) 


情况 五 天 =1、 从 式 48. 的 ) 可 知 ， 这 第 一 种 情 沈 由 微分 方程 


ONO Ci ) = (2) DNRC D = ABC) = NEG) -80 PARC) 


(8.66) 
t=] 


fia. Am, MEH IRAGE, 4 >am}, AF ll, 470. AK, 4: 趋向 无 穷 大 
AY, 74(8.66)44 wR DR 0。 忽略 此 项 ， 式 (8.66) 简 化 为 


ae = KEL AKE] 对 上 一 o (8.67) 


(Bee ao a], AYER bP R867) BIE 

方程 (8.67) 表 示 自 治 系统 ( 即 系统 不 显 式 依 赖 于 时 间 )。 这 样 一 种 系统 的 稳 完 性 最 好 由 称 
为 Lyapunov AA MIIE KAA, Lyapunov 函数 的 具体 地 处 理 细 节 在 第 14 章 介 绍 。 令 s 表 示 
日 治 系统 的 状态 向 量 ， 所 电表 居 系 统 的 Lyapunov BAX. 如 果 满 足下 烈 条 件 ， 则 系统 的 平衡 
状态 是 渐进 稳定 的 





d 
+ V(t) < 0 Ws U—s 


FLU s AT) Sob. 
AT AY AL, SRA RT a (8.67) 一 个 由 
V(t) = L(t) - 1) (8.68) 
EXHI Lyapunov 罗 数 ， 为 了 证 实 这 个 断言 ， 必 须 证 明 VC a EP SF: 
L. W <0 对 所 有 : (8.69) 
2. Va) RA EMA (8.70) 


在 式 (8.68) 中 对 2 求 导 得 
WLO AA - 1) St = RCRD) I em (8.7D) 


SE e 因为 特征 值 % 是 正 的 ， 从 式 (8.7]) 发 现 ， 当 1 BAA 
天 时 ， 式 (8.69) 的 条 件 为 真 。 此 外 ， 从 式 (8.71) 知 V) = 1 处 具有 最 小 值 { 即 


LOD _0)， 所 以 式 (8.70) 的 条 件 也 满足 。 因 此 我 们 可 以 用 下 列 陈述 结束 情况 上 的 分 析 : 


O02) —+1 W p — o (8.72) 
根据 式 (8. 了 72) 中 描述 的 结果 各 式 (8.71) 的 定义 ， 可 以 重新 陈述 式 (8,655) 中 情况 I 的 结果 
的 最 终 形式 : 
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D, (1) -* 0 u gp — œ Fle, kem (8.73) 
NGL TA aI aS Sie a As : 
© 20(8.47) FHI REPLI IAT ERT 6, 0), FOS PID A CRE 0 
© Gh 0, C2 WF + 1, 
HE, Merve Pee RA SA. Ree, KRR. SDRE, TRIE HRE 
wit) -= d i 的 
Hitt q AXE RARA A, 对 应 的 归 - 一 化 特征 网 量 。 
根据 请 进 稳定 性 定理 的 妈 件 6， 我们 必须 证 明 对 全 在 所 有 回 量 集合 的 村 集 如 请 足 
limw(n) = ql 以 概率 1 ACB HAE ay Be 
HTAR, FRA SE 2, ORG Ee won A, TA (DS T 
E as RIJE X won CRY 
| wn} | = max |w; (1) | <n (8.74) 
FAE R” BEATE, B-PERDT ST a HARRE, 可 以 直接 证 明 (Sanger， 
1989b) 。 


wR lwa ll <a, HER a BBA, Ml wiati) < || wlan) || ARI RS, 


Fat, BABAR n BBA, won AREAS AAS 1 EAP, A S| Bh 
Bq TGA FREY el ee, RIAA CBG). BRL, RFE. 

现在 新 进 稳定 性 证 理 的 所 有 6 RP aE T, EB (WE a H e BR ) RL 
it FA (8.47 RDE wn PA 1 收敛 于 特征 问 星 qm，q ÆSKE R EA BIEL Ay 对 
MARRIED) A, AAR IES, m AE ERE A o 


基于 Hebb RARER oe A TE A 


刚才 给 出 的 收 伍 分 析 只 证 明 由 式 (8.39) 或 等 价 地 式 (8.46) 的 日 组 织 学 习 规 则 控制 的 单个 
线 手 神经 元 自 适应 地 抽取 平稳 输入 的 第 一 个 主 分 量 。 这 第 一 个 主 分 量 对 应 于 随机 向 量 X(n) 
的 相关 和 矩阵 的 最 大 特征 值 Ms SSE EA 与 模型 输出 yt nn) 的 方差 有 关 ， 如 下 所 示 。 
A cp) 表示 随机 变量 Y(n) 的 方差 ，y{n) 表 水 了 (Rn) 的 一 次 实现 ， 即 
(n) = ELY (Cn)] (8.75) 
其 中 由 于 输入 均值 为 零 ，Y(n) 其 有 0 均值 。 在 式 (8. 御 ) 中 令 n> oF AIA wn Belt q 
的 事实 ， 我 们 得 到 
x(n} = yng Ay nA œ 
利用 这 个 关系 ， 可 以 证 明 当 选 代 次 数 n BIS ont, Wo Cn) A SKYM 8.2， 
总 之 ， 其 运行 由 式 (8. 御 ) 描 述 的 基于 Hebb 的 线性 神经 元 以 慨 率 1 收敛 于 一 个 固定 点 ， 
它 具 有 如 下 的 特征 (Oja,1982): 
1. Ao SB elt AE 及 的 最 大 特征 什 ， 表 小 为 
lima’ (nm) = A (8.76) 
2. 模型 的 帘 触 权 全 癌 量 趋同 相关 的 特征 癌 量 ， 表 未 为 
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limw(n) = q (8.77) 

E lim i w{n) || =1 (8.78) 

AEEA RA RIA REFER, ARR AEE A, HEROJ 1, Ebt RAE, 
MATA A, >0 且 重 数 为 上 的 非 抽 定 相关 矩阵 R. 

例 8.2 匹 包 滤波 器 ”考虑 随机 向 量 及 (nn) 组 成 如 下 

X(n) = s+ V(n) 
KF s AAEE, KRIS SE, Vind ASHAN SES SS. MANSHAKE 
阵 为 
R = E[X(n)X*(n)] = ss” + ol 

EHF 是 噪声 向 量 Win) 元 素 的 方差 , 1 是 人 单位 短 阵 。 因 此 相关 知 阵 及 as ACRE (Bo 


Ar leo 
Uf hy VP SE fe] E q 为 
q = 5 
容易 证 明 ， 在 这 种 情况 下 这 个 解 满足 特征 值 问题 
Rg, = Aq 
RIE, TPA SRR TOL, BARRERA T ORRE RE SEF) ES e 
RS, Poppa Meal h R RAE eas ) Say A fol Bt X( ne Sp at s 匹配 。 是 


8.5 基于 Hebb 的 主 分 量 分 析 


上 一 下 中 基于 Hebb 的 最 太 特 征 滤波 器 抽出 输入 的 第 一 个 主 分 量 。 这 个 单线 性 神经 元 横 
型 可 以 扩 尾 到 单 层 线 性 神经 元 的 前 馈 网 络 ， 目 的 在 于 对 输入 x 
进行 尾 意 大 小 的 主 分量 分 析 (Sanger,1989b ) 。 
Reie 考虑 如 图 8-6 所 示 的 前 馈 网 络 。 假 设 具 有 下 商 7 
结构 属性 : 
7 cae AED oD ke EM 
2. 网 络 有 m PARE PH, EDR EW. B 
Sh, eee be A CBD em) 
MEAE EVRA R AR i, CITRATE 
源 节 后 3 OE ee. i 其 中 i =1,2,…,m 图 8-6 公有 单 层 计算 节点 
各 =1,2, 的 前 馈 网 络 
在 时 刻 n 神经 神经 元 j 对 输入 集 |xCn)1i=1,2,… ,mi 的 响应 所 产生 的 输出 y(n) 由 下 
式 给 出 (参看 图 8-7a): 


a4 





yín) = DY, (n)a, ln), j= 1,2,7, (8.79) 
根据 Hebb FYN XEK, EER W CR) AAT FA Sanger, 1989h ); 
Aw, Cn) = ym) mn) = x(n) D mdy], E 8:80 


其 中 Aw; (n) BERR n 对 w (n) MEM, 7 是 学 习 率 。 对 于 一 层 含 有 个 神经 元 的 式 
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(8.80}) 所 示 的 广 头 Hebb Ñ j (generalized Hebbian algorithm, GHA ) 包 括 上 - 节 式 (8,39) 的 算法 
为 其 特 味 情况 ， 即 j= 1- 
为 对 该 算法 的 行为 进行 分 析 ， 将 式 (8.80) 捍 新 写成 44 


Aw, (n) = ny tn) x, Cn) - w,(n)y(nd, ;2 2 (8.81) 


的 形式 ， 其 中 2’. (n ) 为 输入 向 量 Ka) 的 第 i 个 分 量 的 修改 形式 ， 它 是 下 标 ; 的 函数 ， 表 示 为 
A I (8.82) 


ATP a ERTS j A8 DARA RA J E (8.39) Am FA ERS Ee 
全 机 同 ， 只 是 将 x Cn AEM T EBEE x’ Cn). A EAE AR A. 80) HBTs Hebb 
的 学 习 假 设 对 应 的 形式 ， 表 未成 


Awin) = ny,(n)x" (a) (8.83) 
其 中 x” (n)=x’,-w,(n)y,(n) (8.84) 
EE wiin +l) =w Cn) + Awin) (8.85) 
FU wln)=2 lw fn+1)] . (8.86) 


其 中 z Be REI PETER. Fe APE Hebb 算法 的 信号 流 图 ， 如 图 8-7b 所 示 。 从 
图 中 看 出 只 要 其 公式 由 式 (8.85) 描 述 ， 则 算法 适合 于 实现 的 局 如 形式 。 同 时 注意 在 图 8-7b 


的 信号 流 图 中 表示 反馈 的 y(n) 由 式 (8.79) 决 定 ， 它 的 信号 流 图 表示 在 图 8-7a 给 出 。 


—¥ 4 (71) 
x, (Fr WN i (r) 
—¥5(7) 
wain) 
Fie itt) 
x(n) w 一 上 jim) 





x (7) 


nyir) — ¥; (72) 


Y; (n) 





CY 
a) b) 

图 8-7 T X Hebb RRA ASA RA 

aj 式 t8.79) 的 图 b)x0(8.80) Æ (8. 81A E 
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为 了 有 助 于 理解 广义 Hebb AEREE, RIE AA A RET (8.81) 
定义 的 算法 如 下 : 
Aw (n) = ny; (n)xX Cn) = ny, (njw {n}, j = | re (8.87) 


其 中 x (n) = x(n) - Xw, Cn)y ln) (8.88) 


向 其 轴 (n) 为 输入 向 其 的 修正 形式 。 基 于 式 (8,87) 给 出 的 表示 ， 我 们 得 到 下 面 的 观察 结果 
{ Sanger, 1989b) : 

1. 对 于 图 8-6 MRAZ PH - ae, RNA 

Tad x(n) = xin) 

HARF, X Hebb 算法 相当 于 上 一 节 的 一 个 神经 元 的 式 (8.46)。 由 8.4 节 的 摘 述 ， 我 
们 已 经 知道 这 个 神经 元 将 发 现 答 大 回 量 的 第 一 个 主 分 量 。 

2, 对 于 图 8-6 中 的 第 2 个 神经 元 ， 我 们 写 出 

j=2: wn) = x(n) -—w(n) y(n) 

RB PHILO ATW PESO, WU PASO eal PRA Won), 从 
APC AR AAS RPTL. AI oP eee (Cn APE 
分 量 ， 相 当 于 原来 竹 和 向量 x(n ARP EDS. 

3. 对 于 第 3 个 神经 元 ， 我 们 与 出 

f=3: Wn) = x(n) - winy KE) - wn) y(n) 

假设 前 两 个 神经 元 已 经 分 别 收 伍 于 第 一 个 和 第 二 个 主 分 量 ， 如 前 面 丙 步 的 解释 一 样 。 第 三 个 
神经 元 的 回信 回 量 为 x(n)， 从 其 中 已 经 去 掉 相 关 害 阵 及 的 前 两 个 特征 向 量 。 因 此 第 三 个 神 
经 元 抽取 的 是 wtn) 的 第 一 个 主 分 量 ， 相 当 于 原来 输入 同 量 xtn) 的 第 三 个 主 分 量 。 

4. 对 于 图 8-6 的 前 局 网 络 中 剩 下 的 神经 元 ， 继 继 执 行 上 述 过 程 。 显 然 根 据 式 (8.81) 的 广 
SM Hebb 算法 训练 的 网 络 的 每 个 输出 代表 对 应 于 输入 同 量 相关 答 阵 的 菜 一 特征 问 量 的 啊 谤 ， 
并 日 这 些 输出 按 特 征 值 递 减 排序 。 

这 个 计算 特征 回 量 的 方法 与 通称 为 Hotelling 的 紧缩 技术 (Hotelling's deflation technique) 相 
it} (Kreyszig, 1988); CXT Gram-Schmidt 正 交 化 过 程 (Strang,1980)。 

这 里 所 给 的 -个 神经 元 搂 一 个 神经 元 地 摘 述 仅 公 是 为 了 简化 解释 。 实 际 上 ， 在 广 尽 
Hebb 算法 中 所 有 的 神经 元 趋 于 同时 收 伍 。 


IE RY TE AE E 
4 Wn) = |w (2) | AA 8-6 所 示 前 馈 网 络 的 一 个 1x m 的 权 值 矩阵 ， 即 
Win) = wn wn wn) |? (8.89) 
令 广 义 Hebb 算法 的 学 习 率 参数 1 取 时 变形 式 n(n)， 限 制 条 件 为 
limy{n) = 0 村 Dyn) = & (8.90) 
E ORS TE aS ae RFE I 
AW(n) = nln)ly(n)x'(n) - LTLy(ndy’ (a) Wa) | (8.91) 


其 中 LIL IAF ZAST, EIDE ee DOA ORR BA 0, SATIRE RCA TEM 
水 阵 。 在 这 些 条 件 下 以 及 来 用 8.4 节 所 作 的 假设 ， 则 CHA 算法 收敛 性 证 明 的 过 程 与 上 节庆 
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SS La ———L— e a A a e e a m R o a E o a l lee 


Tae A PPE DE I ar SER M BERITE BRE F ENJE E (Sanger, 1989b) : 


do RAE ERE W nE on = 0 ARR, A891) PARE ag PR ebb 算法 以 
概率 1 EAP R SO, FW (On) eT, REEMA SHA mx LRA EH mx m 
NFB KER ROG 1 全 特征 向 量 ， 按 特征 值 的 降序 排列 ， 


这 个 定理 的 实际 价值 在 于 ， 当 对 应 特征 什 丘 不 相同 时 它 保证 广 疼 Hebb 算法 能 够 找到 相 
Fae RAB 1 个 特征 向 量 。 辐 样 重要 的 是 ,我 们 不 需要 计算 相关 朱 阵 R，R 的 前 ! 个 特征 
el A ABAD STE. PHRASE OAR m 很 大 ， 而 要 求 与 及 最 大 的 1 个 
最 太 特 征 值 对 应 的 特征 向 量 的 数 自 只 是 m 的 一 小 部 分 ， 则 导致 的 计算 节省 可 能 是 巨大 的 。 

上 收 钱 定理 是 用 时 变 学 习 率 参数 n ERK. RL, FU BBM AAT 
AE RR m9， 这 样 才能 保证 硬 j 阶 的 突 触 权 值 的 均 方 误差 意义 下 收 合 。 

TE Chatterjee et al.(1998) 中 ， 研 究 式 (8.91) 描 述 的 GHA 算法 的 收 黎 性 质 。 那 里 给 出 的 分 
AR, 增加 将 导致 收 合 速度 加 快 ， 同时 渐进 均 方 误差 也 会 增 大 ; 这 在 直观 上 也 是 符合 
RJ- 除 此 之 外 ， 沪 论文 对 计算 的 精确 性 和 学 习 速 度 之 间 的 折 中 作 了 清楚 的 描述 。 

T X Hebb 算法 的 最 优 性 
假设 在 极限 时 写成 
Aw(n) 一 人 和 mwfn) 一 日 n> IF j = 1,2,…,7 (8.92) 
FF AA 
lwia) = 1 对 于 所 有 j (8.93) 
那么 在 图 8-5 Bran ea RRN, PBS oA RA Ae) BR PR ig, ,中 ,…:,q EK 
PE R 的 前 了 个 特征 值 对 应 的 归 一 化 特征 向 量 ， 按 特征 值 的 降序 排列 。 在 平衡 时 可 写 为 


ee k=} 
"Ra. = | 
q nq 0. kj 


(8.94) 


FEHR A >A Ap 
对 于 神经 元 j 的 输出 ， 我 们 有 极限 值 
lim% tn) = x'{a)q; = q x(a) (8,95) 
令 了 (nn) 用 表示 一 个 随机 变量 ， 其 实现 记 为 输出 y(n)。 在 平衡 时 随机 变量 了 (nz) 和 Y,(n) 
的 互相 关 为 
r kag 
lim ELY, (n) Y,(n)] = Efq X(n)X (n)q] = y Rq, = # ' (8.96) 
片 一 a 了 
因此 ， 我 们 可 以 陈述 : 在 平衡 时 式 (8.91) 的 广义 Hebb 算法 充当 输入 数据 的 特征 分 析 嚣 。 
F iln eA BTA E xn) 的 特定 值 ， 对 于 这 个 值 ， 民 (8.92) 的 极限 条 件 对 J= 7 -1 是 
泣 足 的 。 因 此， 从 式 (8.80) 的 定 阵 形式 ， 我 们 发 现在 极限 形式 


kin) = Sy, (nq, (8,97) 


这 意味 着 给 定 两 组 值 ， 即 图 8-5 AR 8 Pe AR PR ig, ,中 ,9 
和 相应 的 输出 ”ny yn) eyin), REIT UAA E xfa) 的 线性 最 小 平方 
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Ei n ,实际 上 ,如 图 8-8 所 描绘 的 式 (8.97) 的 公式 可 视 为 一 种 数据 重建 , 注 童 根据 在 
8.3 节 中 的 讨论 ， 这 种 数据 重建 的 方法 导致 志 近 误 差 同 量 和 和 和合 计 d 
(na) EZ., 
GHA, 小 结 

J 30 Hebb 算法 (GHA) 所 寂 及 的 计算 很 简单 ， 可 以 小 结 如 
F: 

1. ÆRA] n= 1 RF, WERA RAR w, ERA qi 
小 的 随机 数 ， 对 学 习 率 参数 六 赋 给 一 个 小 的 正 数 。 了 8.8 如何 计算 重建 向 

2. AT Ta = l;] = Fearta ł A i = 下 计算 H Š 的 信和 与 流 图 表示 


yia) = >) wm, (a) x, (2) 
i=] 





Au,(n) = Nr) = yin) Dw (n) y(n)] 
EP, x(n) mx 1 AE x(n HO i 个 分 量 ，! 是 期 望 的 主 分 量 个 数 。 
3n 增加 1(n = n+1)， 转 到 第 2 步 ， 并 继续 执行 直到 几 达 到 稳 态 值 。 对 较 大 的 n， 神 
ETE j 的 突 触 权 值 几 收敛 于 输入 向 量 x(n) 的 相关 矩阵 的 第 / 个 特征 估 对 应 特征 向 量 的 第 ;个 
分 量 。 
8.6 计算 机 实验 : 图 像 编 玛 


通过 用 广义 Hebb 学 习 算 法 解决 图 蛋 编 码 问 题 完 成 对 该 算法 的 讨论 . 
图 8-9b 表示 用 于 训练 的 一 个 双亲 图 像 ; 该 图 像 强调 边缘 信息 。 它 被 数字 化 为 256 x 256 
的 图 像 ， 分 为 256 个 左上 度 等 级 。 利 用 一 个 具有 8 个 神经 元 的 单 层 线性 前 钳 网 绍 对 图 像 编 码 ， 
BTCA 64 个 输入 。 利 用 8 x 8 HIER BARBARIANS, RRA 2000, = 
习 率 mW= 10” 。 
图 8-% ana!) 8 x 8 的 屏蔽 (mask) 表 示 网 络 学 习 所 得 的 罕 触 权 值 。8 RR PB Et 
为 要 某 个 特定 的 神经 元 相关 的 一 组 权 值 。 具体 地 ， 兴 奋 ( 正 ) 的 权 值 用 白色 显示 ， 卸 制 ( 负 ) 的 
权 信 用 黑色 表示 ， 灰 色 表 示 权 值 为 0。 在 我 们 的 表示 法 中 ， 屏 项 表示 广义 Hebb BEM AE 
的 64 x 8 RA EERE WH 
使 用 下 面 的 步骤 实 现 对 图 像 编码 ， 
© 图 像 的 每 个 8x8 块 与 图 8-9h 所 示 的 8 个 屏蔽 的 每 一 个 相 乘 ， 因 此 将 产生 8 个 系数 作 
FAVES Gay; 图 8-9e 显示 设 有 量化 的 基于 8 个 主 分 量 的 图 像 重 建 。 
。 每 个 系数 一 律 被 量化 为 与 该 图 像 的 系数 方差 的 对 数 成 正比 的 比特 数 、 最 大 的 3 个 屏 
项 为 每 个 6 比特 ， 其 次 的 两 个 为 每 个 4 比特 ， 骨 其 次 的 两 个 为 每 个 3 比特 ， 最 小 的 
一 个 为 2 比特 。 基 于 上 述 表 示 ， 需 要 34 比特 对 每 8 x 8 的 像素 块 编码 ， 每 个 像素 为 
0.53 比特 的 数据 率 。 
放量 化 系数 重建 图 像 ， 所 有 的 屏蔽 都 用 它们 的 量化 系数 加 权 ， 然 后 亚 加 重新 构成 的 每 块 
图 像 。 以 15:1 的 压缩 率 重 建 双 亲 图 像 如 图 8-9d 所 示 。 
作为 第 一 个 图 像 的 变化 ， 下 面 我 们 对 图 8- 10a 所 示 的 海洋 景色 图 片 应 用 广义 Hebb 算法 。 
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图 8-9 
a) AF RT RR b8 x SAO CHA SIRE 
ap AW R PA, BE oe EE 15:1 PS a a 


ZARR oa at ER, E 8- 10b 显示 用 前 面 描述 的 处 复方 式 由 网 络 学 得 的 突 触 权 值 的 8x8 
屏蔽 图 像 ， 注意 到 它们 和 8-9b FORRES, K 8- 1i0c 显示 没有 量化 的 基于 8 FERRE 
建 的 海洋 图 像 ， ATR EIS in, CBSA HH TAS he, 第 3 个 为 3 比 
特 ， 剩 下 的 5 个 每 个 为 2 比特。 这 样 需 刘 23 比特 为 每 个 8x 8 像素 块 编 码 ， 每 个 像素 块 的 比 
特 率 为 0.36 比特 每 像素 。 图 8-10d 显示 量化 后 重建 的 海洋 景色 图 像 ， 使 用 自己 的 以 刚才 撒 
述 的 方式 量化 的 屏 南 。 这 幅 赂 像 的 床 缩 比 为 22:1。 

为 了 测试 广 六 Hebb 算法 的 "汉化" 性能， 最 后 用 图 8-9b 的 屏 散 分 解 图 8-10a 所 示 的 海洋 
景色 图 像 ， 然 后 用 与 产生 图 8- 10d 所 示 重 建 图 像 一 样 的 量化 过 程 。 这 个 图 像 重 建 结 果 如 图 
8- 10e 所 示 ， 压 缩 比 与 8-10d —##, EW 22:1, BAE 8- 10d 中 的 重建 图 像 与 在 3- 10e 中 的 是 
惊人 地 一 致 ， 但 可 以 看 到 图 8- 10d E 8- 10e 更 其 有 真实 纹理 信息 而 更 少 块 状 现象 。 产 生 这 种 
情况 的 原因 在 于 网 络 的 权 值 。 对 双亲 图 人 黎 和 海洋 景色 图 像 所 完成 的 训练 ,它们 的 前 4 个 突击 
权 值 很 相似 。 然 而 ， 对 双亲 图 像 而 言 ， 后 4 个 权 值 编码 边 绿 信息 ， 但 在 海洋 景色 图 像 中 ， 这 
4 个 校 值 编码 纹理 信息 。 因 此 当 用 边缘 型 权 值 对 海洋 图 像 编码 时 ， 纹 理 数 据 在 重建 后 是 粗糙 
的 ， 因 此 产生 了 块 状 现象 。 
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8-10 
471 
DSR ABE ”bx 的 有 屏 项 表示 由 应 用 于 海洋 景色 的 CHAS 4 ll A) SE aa fa 


oS) HY 9 The as ae a EER Fb) AL 22: | a 
ar SE ee dg HTT 8-9b UP AO YS JA 22:1 FSB se PE EAR 


8.7 使 用 便 向 抑制 的 自 适 应 主 分量 分 析 


前 一 节 描 述 的 广义 Hebb 算法 是 基于 排除 使 用 前 馈 连 接 的 主 分 量 分 析 。 在 这 一 蔬 我 们 讨 
论 妈 一 个 称 之 汶 自 适应 主 分 量 抽 取 (adaptiye principal components extraction, APEX) 的 算法 (Kang 


ww ai bbt. com O0 [FT MM oH 





| 422 | 


and Diamantaras, 1990; Diamantaras and Kung, 1996), APEX APEA EER AL RO 
RES on Bee Ha DEDE, Ea ERP AEA j 个 主 分 景 
用 于 导出 APEX 算法 的 网 络 模 型 如 图 8-11 所 小 。 
ELEI, BAT x A om 维 ， 其 分 量 用 x ox.’ 
Xm 表示。 网 络 中 每 个 神经 元 均 为 线性 单元 。 旭 图 8-11 
的 描绘 ， 网 络 中 有 两 种 突 触 连 接 方式 ; 
" 前 局 连接 : 由 输入 节点 到 神经 元 1,2,… ,i RY 
连接 ，j < m。 我 们 特别 感 兴趣 的 是 到 神经 基 j 
AY By eae ASL et | 这 些 连接 由 前 镶 权 值 铅 
H 





w, = [w(tn), wala), w_ln) |’ 
表示 。 前 局 连接 按照 Hebb 学 习 规 则 运行 ; 这 j 
种 连接 是 兴奋 性 的 ， 从 而 起 到 自 增 强 作 用 。 iy Ht 
© 侧 向 连接 :从 输出 单个 神经 元 1,2,…,- 工 到 a | 
M70 7 间 的 连接 ， 对 网 络 起 反馈 作用 。 这 些 py a 
HE BE h Fe ASS A A m 
a(n) = Laa haa ah sa 1? 
RR. MAERA Hebb 学习 规则 (anti-Hebb leaming rule) 运 行 ， 该 规则 对 它们 产生 


抑制 人 必用. 
ER 8-11 中 ， 第 /个 神经 元 的 前 馈 连 接 和 反馈 连接 用 粗 线 表示 仅仅 为 了 强调 神经 元 j 是 
赋 客 的 主题 ， 
HET j A yr nA 


y(n) = wi(n)x(n) + a (ny ln) (8.98) 
其 中 w (a)xCn ARETE, af (a)y. 02) 由 侧 向 连接 产生 。 反 馈 信 和 号 向 量 yY (rn) 
神经 元 1,2,… ,i -1 的 输出 定义 ， 

有 (8,99) 
假定 输入 信号 x(n) 取 自 平 稳 随 机 过 程 ， 其 相关 矩阵 RBA Oe HE 
旭 下 ; 


A > Ag Povo ALL PR A > or A, (8.100) 

进一步 假设 图 8-1) RRA APTT, 2, e] Laaa E k, B 
wi(0)=sq,. &=1,2,,7-2 (8.101) 
a,(0) = 0, k= 1,2,,f-1 (8.102) 


其 中 到 是 与 相关 和 矩阵 RKS k MAPK ORE, Pe eh oc i 从 时 间 步 rn =0 时 
开始 计算 。 我 们 可 以 利用 式 (8.98)、(8.99)、(8.101) 和 和 (8.102) 写 成 
y(n} = LO xin) e xin) ,Xn)] = Qx(n) (8,103) 
其 中 Q 是 (7 - 1) x m BERR, BIERE RG - 1 个 最 大 的 特征 值 N ,%,…,%_, 相 联系 的 特 
EHE gq, qt g,_ FRR, BP 
Q = la.m. gil’ (8.104) 
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下 面 的 任务 是 用 图 8-11 PRH TRAM BAR RPO PRA EIB 
A, AMIE XT AL SVP TE IY St qo 

Hil it EAE w, Ce) A eS A a, Ce) Ea a EO 
w(n +1) = Wn) + gly; nn) - ¥j)(n)w,(n)] (8.105) 
和 aj(n+1l)=a(n)-aly(n)y,i(n) + ¥7(nda(n)] (8.106) 
HEP ye FD BBR, RATER TE PA n— tE (8.106) Ah y(n) x(n) ARE 
Hebb 学 习 ， 而 项 - yC ndy HERR Hebb FY. BP MR yj (na (Cn) Al — 93 (1) w, Ca) 
保证 算法 的 稳定 性 。 基本 上 ， 式 (8.105)] 是 式 (8.40) 所 述 的 0ja FD MMH BER, i 
(8.106) 是 新 的 ， 说 明 侧 向 连接 的 作用 (Kung and Diamantaras, 1990; Diamantaras and Kung, 1996), 
呆 用 归纳 法 让 明 图 8-11 神经 其 络 的 绝对 稳定 件 如 下 ; 
” 至 完 ， 我 们 证 明 如 采 神 经 元 1,2,…,j -1 收敛 于 其 稳定 状态 ， 那么 神经 元 j 将 通过 提 
BAARI xn PARERE R 的 第 j 个 特征 值 % 及 其 对 应 的 特征 向 量 g 而 达到 自 
上 刁 的 稳定 状态 。 
。 AK, 认识 到 神经 元 1 没有 反馈 连接 ， 因 此 反馈 权 值 向 量 a 是 9G， 我 们 可 由 归纳 法 
完成 这 个 证 明 。 因 此 这 个 特殊 的 神经 元 运行 实际 上 与 0ja 神经 元 的 运行 过 程 一 样 ， 
H 8.4 市 基 道 在 一 定 条 件 下 这 个 神经 元 绝对 收 伊 ， 
因此 仅仅 需要 注意 第 一 点 。 
为 了 进一步 处 理 ， 我 们 使 用 8.4 节 所 作 的 基本 假设 ， 在 图 8-11 所 示 网 络 中 的 神经 元 j 
内 运行 满足 式 (8.105) 和 {8.106) 描 述 的 条 件 下 ， 我 们 得 到 下 面 的 定理 (Kung and Diamantaras, 
1990; Dramantaras and Kung, 1996) - 
fi PES BEM y 足够 小 ， 使 权 值 向 量 的 调节 进行 缓慢 ， 在 极限 时 前 馈 连 接 的 权 值 
回 量 和 昼 经 元 7 的 平均 输出 功率 (方差 ) 趋 近 于 相关 年 阵 及 的 归 一 化 特征 向 量 q, 和 对 应 的 特 
IHE A;， 分 别 表示 为 
limw, (7) = q; 
和 lima; (n) =A, 
其 中 oi(n) = EL CNO], HA >h PO D> A; >t > Aa > O, 换 癸 话说， ee SE FF GE [al fe q, ， 
toq- 图 8-11 所 示 网 络 的 神经 元 计算 出 下 一 个 神经 元 的 最 大 特征 值 X 和 对 应 的 特征 
H Qo 
为 了 证 明 这 个 定理 ,首先 考虑 式 (8.105)。 利 用 式 (8.98} 和 (8.99)， 并 且 认 识 到 ， 
a (a)y ain) = y(n)a tn) 
可 以 改 号 式 (8.105) 如 下 : 
wint h= win) + nL xt nyx Cn pw, Cn) + rín) (nQ a(n) = yi(n}w {nn)] 
(8.107) 
其 中 人 由 式 (8.104) 定 义 。 在 式 (8.107) 中 项 y:(n) 没 有 改变 ， 其 原因 后 面 将 会 明白 。 用 8.4 
广 的 基本 假设 ， 对 (8,107) 两 端 应 用 统计 期 望 算 子 可 得 
win l) = wn) + al Rw,(n}) + RO a(n) -ol(n)w!{n)] (8.108) 
其 中 及 是 输入 问 量 的 相关 和 矩阵，c(n) 是 神经 元 了 的 平均 输出 功率 。 令 权 值 向 量 w (n) 
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EFRR ROE SCP aE fel BS AF 
wel) = S18, (nq: (8.109) 


其 中 q 是 矩阵 及 的 入 对 应 的 特征 向 量 ,，9;(n) 是 展开 式 的 时 变 系 数 。 利 用 基本 关系 (参看 
式 (8.14)) 

Rg; = A, Qk 
TORE Rw, (2 QF : 


Rw, (n) 一 +74, (n) Raq, = > AG, Cn) gq, (8,110) 
k=l k=l 


RWE, ARG. 104) ARERR RQ aifn) 为 
RQ'a (n) = R' q, T : DEEL M jata) 


airn) 
akn) Tl- (8.111) 
= LAr Gh Anh AR Qt] Dy Na (1) Qh 
à l 
GQ, 1(n) 


因此 ， 将 式 (8.109)、(8.110) 和 (8.111) 代 入 式 (8.108) 并 化 简 ， 得 到 (Kung and Diamantaras, 
1990) 


AC +1l)q, = 2411 1+ là, ~ a(n) IO Cndq, + 9 Ehala dg, (8.112) 
遵循 上 述 类 似 的 过 程 ， 可 以 将 关于 反馈 权 值 向 量 a. (n) WRF 程 (8 106) BE AY EE 
式 ( 参 看 习题 8.7): 
a(n +1) =- hAban), + il- nA + s(n))iatn) (8.113) 
其 中 1; 是 第 j 个 元 素 为 1 WACK HA OMe. Pte k ERREDH Deh j-1 内。 
按 记 与 i--1 的 关系 需 考 虚 两 种 情况 。 情 况 1 指 1 < 上 和 ij - 1， 运用 于 分 析 网 络 * 已 有 的 ” 
主 模式 。 情 况 EiS 7 < m， 适 用 于 分 析 “ 新 的 " 主 模式 ,而 总 的 数量 为 m， 即 输入 向 量 
xf ny 的 维 数 。 
情况 I 1< < -1 在 这 种 情况 下 ， 从 式 (8.112) 和 (8.113) 分 别 推出 关于 qd 的 系数 
9.4n) 的 时 新 方程 以 及 反馈 权 值 同 量 a (CA Ba AE 
Pain +1) = mias(n) + 114+ 9A, — on) (n) (8.114) 
和 ay(n+1)= -hn) + tl- nA +o (n) Jl a(n) (8.115) 
图 8-12 给 出 式 {8.114}) 和 (8.115) 所 描述 的 信号 流 图 。 
用 矩阵 形式 重 写 式 (8.114) 和 {8.115) 如 下 ; 
| i ie ~a(n)] TA 
ay, Cm T l) 7 


£ (8.116) FRE KBE ETE 





hon! (8.116) 





— TA; 1- là, + oo (nn) 


o, = l-in) (8.117) 
hf BCA ea REA. Fsh(8.117) Fal Fee Ye : 
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L. 式 (8.117) 中 系统 矩阵 的 重 特 入 伸 pe AHO 
ant IRMA, 6 = 1.2.0.7 la 

2. 3AM A, op, ABARTH BER n 
和 神经 元 的 平 六 输出 功率 a, HEA Re 
gyre Hee, WE AY F 1 Bye ee. 

Wt py <b, AC8.109) FHRA Cn) Fe 
SHARE arfa) 对 所 有 的 天 以 同样 的 速度 趋向 于 
0, RAMA ERA AA Pl AP 0 gF AEE (Kune 
ei pon 1990; Diamantaras and Kung, ,1996 ) 。 

eTA FE at, BUTE (a) BEY IE SE 
et 换血 话说 ， 式 (8.109) 中 w(n) 
MAH EE 及 的 止 交 特征 向 量 集 的 展开 式 与 特 
ILAA ,加 ， ,入 -1 的 选择 是 无 关 的 ， 式 (8.109) 对 
式 (8.117) 的 结 来 是 基本 的 。 

情况 再 jcktam 在 第 三 种 情况 下 ， 反 局 

AU ay (ro) XT PEG BEL mode) FoR My, BY Eryr 

aln =0 MPjckam (8,118) 
AE, HETER kej RITA PATE BAY 图 8- 12 RGE. OOHRS. 115) a Si des 
FEIN: 





Oy(n +1) = {11 + nA - jhe (8.119) 
这 直接 由 式 (8.112) 和 (8.118) 可 得 。 根 据 情况 I， 对 = 1,2,°°,7-1,0,(n) Al a, (nn) ABR 
于 0。 用 随机 变量 Yin) ERAR j 的 输出 ， 平 岁 输 出 功率 可 以 表示 如 下 : 


a(n) = ELYi(n)] = SAA (2) (8.120) [427 


其 中 第 二 个 等 式 使 用 了 下 列 关系 : 
A Rg, = A l> k 
0, K 
因此 式 (8.119) 不 可 能 发 艇 ， 因 为 无 论 O EBBA, HE dla) > M1 +i - 
5 Cn)] 变 成 小 于 1， 在 这 种 情况 下 ，9% Cn) 的 幅 值 将 减 小 。 令 算法 用 初始 值 0 (0) «0, FALE 
定义 


ran) -P À k=j+l, ym (8,121) 
可 以 用 式 18,119) 写 为 
A 一 g Èn n)| 
rin +l) = ee eh pjate) (8.122) 
7H OR FB PE AS Sp E E FR eY HEAL, 


A, >A, > tt OD AL, > OD AD OD > Àn 


由 此 推出 


ww ai bbt.com PO00ODOO 





310 £E8z 





aln) 对 于 所 有 n Mk = jf tym (8.123) 


a(n) | 
此 外 ， 我 们 注意 从 式 (8.119) 和 (8.120) 可 得 ,tn+1) 有 灌 ， 因 此 
ritn)— 0 “on — œ [hf ATT A = ja l; ami (8.124) 
同样 地 ， 按 照 式 (8.,121) 的 定义 ， 我 们 可 得 | 
O(n) +0 当 n 一 % 时 对 于 天 = 了 + 上 (8.125) 
Tix TRE PR, 8. 120) A 
gin) = agin) (8.126) 
PLAT (8. HODE k= j BA 
O(n +1) = 114 [E - 6,(n)]{6,(n) (8.127) 
从 上 式 可 立即 推出 
O(n) —1 ¥ n-» © Ay (8.128) 


这 个 极限 条 件 和 式 (8.125) 的 极限 条 件 有 两 个 方面 的 含义 ; 
1. MEE. PORDE 


gln) —> i noi (8.129) 
2. 从 式 18,109) 我 们 有 
wn) — g; “4 on — oo hf (8.130) 


maT, SERRA n BPA 8-1 HRA ARRAS x(n PKS 
MRS PREMERA. Et BAe eS 01,2,---, 7-1 PE AM 
ATIRE RB PE A tE E - 

这 里 描述 的 APEX 算法 的 前 提 为 ， TT 7 开始 作用 前 ， 神 经 元 1,2,…,i 一 1 都 已 经 
收 鳅 。 这 是 为 了 简化 对 算法 运行 的 解释 。 实 际 l., APEX 算法 中 的 神经 元 是 同时 收 伍 的 二。 


学 习 率 

在 式 (8.105) 和 (8.106) 中 描述 的 APEX 算法 中 ， 更 新 前 人 谨 权 值 巾 量 w, Cn ) A eA I 
R a.(n) 的 学 习 率 参数 9 是 相同 的 。 通 过 置 重 特 征 值 0; 为 09， 式 (8.117) 可 被 用 来 为 每 个 神经 
元 7 定义 学 习 率 的 最 住 从 。 在 这 个 情况 下 ， 有 

Thm) = ETET (8.131) 

其 中 sn) 是 神经 元 j RFE, (aE, SSC pa) E E E (Kung and Diamantams, 
1990; Diamantaras and Kung, 1996} 
(8.132) 





We 


=] 


A A-1 > A, H4 n—> co fhf A r) > A; 因此 对 学 习 率 参数 引 产生 过 低 的 值 。 ES iia À; 
由 神经 元 j - lR, PAA oc 7 RON RA RUR N E AE AY 


APEX 算法 小 结 


1, 在 n=1 时 ， 对 前 局 权 值 向 量 w 和 反馈 权 值 同 量 a, 撕 于 小 的 随机 数 作 为 初 值 ， 其 中 
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Fol. .mo 设 定 学 避 率 参数 1 ADLER, 
2. A f/=l, Ma=al.2,:- it 
yin) = w (nn)x(n) 
win+l) = win) + nly,Cadxln) — y(n)w (ln) 
其 中 x(n AMA Ss. FRAN n, Awin), q A x(n) RASA TEL 
Ay 对 应 的 特征 问 量 ， 
3. 置 j=2， 对 nn =],2,… 计 算 
人 
yin) = Ww (nj)x(n) + a (ny, Cn) 
win +1) = wn) + ly,Cidxtn) -y (n)w (a) ] 
afa +l) = a(n) ~ oly (ndy,i(n) + x (nda (n) ] 
4. FSR 1, 3, REE pom, AP m AA SEPA, OER 
j=1 RAR ILIA ERE, 在 第 2 步 受 到 处 理 ) 对 于 很 大 的 n, RITE win) rq,， 
a(n) 一 0， 上 其 中 gq 是 xm) 的 相关 窍 阵 的 第 7 个 特征 值 对 应 的 特征 向 量 。 


8.8 两 类 PCA 算法 


除了 8.5 THERI X Hebb 算法 (GHA} 和 8.7 TEM APEX 算法 外 ， 在 交 献 i 中 还 报 
于 了 儿 种 其 他 的 主 分 量 分 析 算 法 。 神经 网 络 中 使 用 的 各 种 主 分 量 分 析 (PCA) 可 分 为 两 类 ， 重 
合计 (reestimalion) 算 法 和 去 相关 {decorelating) 算 法 。 

按照 这 个 分 类 ，GHA 是 重 估 计算 法 ， 因 为 式 (8.87) 和 (8.88) 可 重 写 为 等 价 的 形式 


win +t} = Ww (nn) 十 ny Cn) zn) - ĝin) ] (8.133) 
Ape eth AF Ein EA 
ĝin) = Dl wn) yn) (8.134) 


AE HE TT EK he oe Bs AE. PE Hebb 方式 修改 它 的 强度 ( 术 值 )。 通 过 在 学 习 过 
程 涉及 数据 集 之 前 先 从 输入 中 减 掉 前 儿 个 主 分 量 的 犀 计 值 ， 强 迫 网 络 的 后 继 输出 学 习 椒 同 主 
分 县, 

Wiig, APEX 算法 是 去 相关 算法 ,在 这 种 算法 中 网 络 且 有 前 馈 和 上 反馈 连接 ， 前 局 连 接 的 
强度 遵守 Hebb 规则 ， 而 反馈 连接 的 强度 遵守 反 Hebb 规则 。 网 络 的 后 继 输 出 通过 去 嵌 关 作用 
来 强迫 网 络 啊 应 不 同 的 主 分 量 。 


主 于 空间 


在 仪 需 归 主子 空间 ( 即 主 分 量 对 应 的 空间 ) 的 情况 下 ， 我 们 用 一 种 对 称 模 型 替代 CHA 算 
法 中 的 重 估 计算 子 训 fm): 


l 
Rin) = Ddoiwilady(n) 对 于 所 有 1 (8,135) 


在 式 (8.133) 和 (8.135) 定 义 的 对 称 模型 中 ， 网 络 收敛 于 一 组 可 生成 主子 空间 的 输出 ， 而 不 是 
主 分 量 本 身 。 收 敏 时 权 值 向 量 彼此 正 交 ， 如 在 GHA 算法 中 一 样 。 这 里 描述 的 主子 空间 可 被 
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8.9 计算 的 集中 式 方法 和 自 适 应 方法 


讨论 主 分 量 分 析 时 不 考虑 门 题 的 计算 方面 是 不 完整 的 ， 和 在 木 节 将 讨论 两 个 主 分 其 计算 的 
基本 方法 : 信 中 式 方法 和 自首 应 方法 ,在 8.3 节 措 述 的 特征 分 解 和 相关 的 奇异 值 分 解 方 法 属 
于 集中 式 类 ， 另 方面， 全 8.5 节 和 8.7 节 讨论 的 GHA 算法 和 APEX 算法 属于 自 适 应 类 . 

在 理论 卡 ， 如 8,3 节 的 描述 特征 分 解 上 六 法 是 基于 输入 随机 问 丰 入 (a) 的 相关 算 阵 R 的 总 
体 平均 。 EE, 我 们 使 用 Rik E. Fir) ;表示 随机 向 量 系 (n 在 角色 癌 隔 的 离散 
时 刻 的 一 组 N 次 实现 。 给 定 这 样 一 组 观察 , 我 们 可 以 用 样本 均值 作为 相关 扼 阵 的 佑 计 : 


RON) = S)x(a)x"(n) (8.136) 


RET X Eai ASR N at See, SERA ACS NBT aA, FAB 
RCONT R EXPEL, ADR AIL RON EHR AR, MAMER.) 
RN) 蔡 代 及 ， 由 此 计算 出 它 的 特征 值 和 对 应 的 特征 向 量 。 

然而 ， 有 从 数值 的 角度 看 ， 电 好 的 方法 是 主 接 科 用 数据 短 阵 进行 奇异 值 分 解 (singular value 
decomposition, SVD); *[—ZH WWE xini’ BERRA 

A = [x€1),x€2).-++,x( NO] (8.237) 

除了 比例 因子 IN yh RSS RE RON) SSRIS AA’ DARL. HEH 
BS PICK aD AE, BEBE A n)a ES EF (Golub and Van Loan, 1996): 


A = UEV’ (8.138) 
BOP UH VEETEE, RRA 
U“ =U’ (8.139) 
和 Vi=v (8.140) 
ETA xX, AA PAE. 
G) 0]. 
g fy, | j (8.141) 
和 T; 3 
es 


其 中 ke mMm, Mm 是 观察 向 量 yí n AY SER. SE Ro, he ee T PRA SY te ee EF A BY at tA. 相应 
WH, EXER U 的 列 称 为 左 奇 天 向 量 ， 而 正 交 知 阵 和 W 的 列 称 为 右 奇 民 向量。 数据 窍 阵 A 的 
奇异 值 分 解 与 相关 答 阵 的 估计 RN) 的 特征 值 分 解 有 下 面 的 关系 ， 

。 除了 比例 因子 VN 外， 数据 矩阵 的 特征 值 是 估计 RCN) 的 特征 值 的 平方 根 。 

。 AMA Hla) BETH RON) ASTER, 

更 在 ， 我 们 可 以 看 出 奇异 值 分 解 比特 征 情 分 解 具 有 的 数值 优点 。 对 于 给 定 计算 精度 ， 奇 
异 值 分 解 过 程 需要 的 数值 精度 为 特征 值 分 解 的 一 半 。 此 外 ,在 计算 机 上 用 于 实现 奇异 值 分 解 
的 过 程 已 有 许多 算法 和 高 精度 的 定制 程序 可 资 利 用 { Golub and Van Ioan, 1996; Haykin 1996), 
涛 而 ， 在 实际 中 ， 开 储 需 求 限 制 这 此 程序 使 用 的 样本 量 不 可 能 太 大 。 

下 面 转 到 另 一 类 自 适 应 方法 ， 这 些 方 法 可 以 对 任意 大 的 样本 大 小 六 工作 。 对 所 有 的 实 
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际 问 题 . A VERO PRB). AE Hebb 规则 的 定 经 网 络 丰 日 运 应 方法 的 便于 ， 它 操作 的 感想 
米 源 于 神经 秆 物 学 .这 类 方法 对 存储 的 要 求 林 对 适中 ， 因 为 特征 值 和 竺 征 向 量 的 中 间 侦 不 圭 
存储 . 自 适应 算法 的 汉 个 诱 人 的 特征 是 在 非 平稳 环 境 中 ， 与 集中 式 方法 相 比 ， 它 具有 以 最 
优 解 各 较 低 代价 眼 踊 缓慢 变化 的 固有 能 力 ， 然 和 侧 ， 随 机 剖 近 型 犁 适 应 算法 的 主要 续 点 是 收 钱 
速度 相当 懂 ， 这 一 点 和 经 典 的 集中 式 技 术 比 较 处 于 相 利 地 位 ; 对 大 型 的 平稳 问题 尤其 如 此 ， 
项 使 是 攻 并 行 神经 网 络 硬 件 上 实现 自 适 应 方法 (Kotilainen ,1993) 


8.10 核 主 分 量 分 析 


到 目 前 为 上 本章 讨论 的 PCA 形式 涉及 刘 在 输入 (数据 ) 空 间 上 的 计算 。 现 在 我 们 考虑 另 

-种 形式 的 PCA, TR ARE EE) be, EA AS BAER ER. RTS ENA 

PEZH ae KG Mercer 定理 的 内 积 核定 义 的 ; 内 积 核 的 概念 在 第 6 BAH Tie, 
基于 核 的 主 分 量 分 析 思 想 归 功 于 Schalkopf et al. (1998), 

由 于 输入 空间 和 特征 空间 的 非 线 性 关系 ， 核 PCA SESE EY. SA, FEA BRIE 
的 非 线性 PCA"， 核 PCA 的 实现 依赖 于 线性 代数 。 因 此 我 们 可 以 将 核 PCA 看 作 是 一 般 PCA 
的 白 然 扩展 。 

今 向 量 p(x) 表示 输入 向 量 x, 在 非 线性 映射 ， gq; BYR" 定义 特征 空间 中 导出 的 像 ， 
其 中 m 是 输入 空间 的 维 数 ，m 是 特征 空间 的 维 数 。 给 定 一 组 样本 ix RIE 
yea APOE M St ex 1 因此 我 们 可 以 在 特征 空间 定义 南 及 表示 的 m x m, HEH eE a 
P: 

RR = 二 Dex AES (8.142) 
如 同 普 通 的 PCA, WTS 完 要 做 的 就 是 确 你 特征 向 量 P(x |" HEA ASA: 


在 特征 空间 上 满足 这 个 笨 件 比 在 输入 空间 上 更 加 困 准 ; 在 习题 8.10 中 我 们 描述 一 个 过 程 来 
满足 这 个 要 求 。 假 设 特征 | 由 全 已 经 聚集 十 中心， 则 可 以 站 日 前 情况 下 改 迹 式 (8.,14)， 写 成 
Rq = Aq (8,143) 
其 中 为 R 的 特征 值 ，q 为 对 应 的 特征 问 量 . TERA 0 满 是 式 (8. a hia 
em, MERER p(x, ) :1 集合 和牛 成 的 空间 中 。 因 此 存 让 一 组 相应 的 系数 la LL. Ret 


可 写成 
q = Sax) (8.144) 
由 此 将 式 (8.142) 和 (8.144) 代 入 式 (8. 143) 得 到 
3 Doo) Ks X) = Ni Dia (x, ) (8.145) 
其 中 K(x, ,x,) 是 内 积 核 ， 通过 特征 向 是 由 PREX: 
K(X xX) = 9’ (x, (x, ) (8. 146) 


Fo BE - 2 LN ( 8. 14S GSE PAA KERRIER. FERS. 1S) SSH RZ 
FEL Pe Sa] et p (x, ) 得 
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Ñ 
> Yak x K(x, X,) = NA Sia K(x, X, ),k 一 1,2,7, A (8.147) 
t=! 


其 中 Kix, ,x,), K(X, 4x HAR, 146056 &. 

MESILA FEAA TAERE M: 

” Nx NEREK, RARER, ERS 7 Pours AAR K(x,,x,) 

*” Nx] 由 其， Fy hc ABR a, 

AU. HERT. 147) OA ee PE 

K'a = NAKa (8.148) 

其 中 年 阵 的 平方 政 ÆR KARR: 因为 式 (8.148) 现 端 均 有 KK， 特征 值 问 题 感 兴趣 的 全 部 
解 同样 可 用 为 更 简单 的 特征 什 问 题 表 示 ， 


Ka = Nao (8,149) 
Shy pag mt, Ay KIER K 的 特征 值 ， 即 
AW = NA. Fs (8.150) 
其 中 X; 是 相关 矩阵 ROSS j 个 特征 值 。 从 而 式 (8.149) 变 成 标准 形式 
Ke = Ao (8.151) 


EFRA e EPEE K 的 特征 值 的 对 应 特征 向 量 的 作用 。 系 数 向 量 是 归 :化 的 ， 
因为 要 求 将 相关 年 阵 及 的 特征 问 量 dg 归 一 化 为 单位 长 度 ， 即 

qq = 1 fk = 1,2,…,p (8.152) 
We Seb TE IAHE E A BRP HESI, A, AREE K 的 特征 什 的 最 小 非 零 值 。 利 用 式 (8.144) 和 
(8.151) 我 们 可 以 得 到 式 (8.152) 等 价 的 归 一 化 条 件 : 


a, @, = -k = Lee ep (8.153) 
为 了 抽出 主 分 量 ， 需 要 计算 特征 向 量 qg TERS] LAT : 


q p(x) = ae" (x, p(x) = Yau KC). k = 1,2, (8.154) 


Ayr] Bt x 是 "测试 "点 ， sa, 是 矩阵 K 3B k 个 特征 值 对 应 的 特征 回 量 a 个 系数 。 式 
(8.154) 的 投影 定义 在 ith) SHE RP ik Se al] YF eX be = 3} E (nonlinear principal component } o 

图 8-13 说 明 核 PCA 的 基本 思想 ， 其 中 特征 空间 经 过 变 摘 中 fx) 和 输入 空间 是 非 线性 相关 
的 。 图 中 的 a 和 hh 部 分 分 别称 为 输入 空间 各 特征 空间 。 岗 8- 13b 中 的 轮廓 线 表 示 在 主 特征 向 
量 上 的 捞 影 为 莲 数 的 线 ， 特 征 癌 量 用 虚线 第 头 表 示 , 在 此 图 中 ， 假 设 变换 pa) FER A 
AAE: TEMES A PRE RASH RRA BR. Fl 8- 13a 显示 输入 空间 上 对 应 
特征 空间 的 线性 等 值 线 的 非 族 性 等 值 线 。 注意 我 们 有 意 没 有 在 输入 空间 上 而 特征 向 量 的 原 
像 ， 因 为 它 甚 至 可 能 不 存在 (Sechalkopf et al. ,1998)。 

T&A Mercer 定理 定义 的 内 积 核 ， 我们 在 m 维特 征 空间 上 执行 普通 的 PCA， 维 数 m 是 
设计 参数 。8.3 Wea BA PCA 的 所 有 性 质 对 核 PCA IRAN, JCH, BH PCA 在 特征 空间 
上 和 起 线 性 的 ,但 在 箱 人 空间 上 是 非 线性 的 。 因 此 ， 所 有 可 用 普通 PCA 进行 特征 提取 和 数据 
压 挥 的 领域 ， 进 行 非 线性 扩展 PCA 也 有 意义 。 

在 第 6 音 我 们 提出 了 三 个 构造 内 积 核 的 方法 ， 它 们 是 基于 利用 多 项 式 、 径 向 基 函 数 和 双 
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a) b) 


E 8-13 #4 PCA 图例 
a) SB ACSI, RREA DREE, RoR AE AERIENE 
PRR. Ab) PASSA RR Ra EH el BB a SS 
EER A 25 TR] ee BP ee Pb 
OR, 参见 表 6-1。 对 给 定 的 任务 ， 怎 么 样 选择 最 适合 的 核 (中 惟 当 的 特征 空间 ) 尽 一 个 有 
符 解 沁 的 问题 (Schilkopf, 1997), 


惊 主 分 量 分 析 小 结 


1. 给 定 训 练 样 本 |x,i ,计算 N x NAE K=/ K(x,,x,)!, EER 
K(x;.x,) = p (x, Eix) 
2. ARE RPE Aol ee 
Ka = Aa 
FP AA KERE, of APE E, 
3. JA ari Se POE, EES 


Oo, 0, = oe, k= [,2,-'ap 
Ay 


其 中 入 EERE 区 最 小 的 非 零 特征 值 ， 假 设 特征 值 是 按 降 序 排列 的 。 
4. 为 了 抽取 测试 点 x 的 主 分 量 , 计算 投影 


I 


a, = q ox) = >) ay, Kx), x), k = dog 


其 中 a, ,是 特征 向量 0, 的 第 j 个 元 素 。 
例 名 .3 为 了 对 核 PCA 的 运行 有 一 个 直观 的 了 解 ， 图 8-14 显示 Scholkopf et al. (1998) 7H 
述 的 一 个 简单 的 实验 铺 果 。 二 维 数据 由 分 量 x, 和 x, 组 成 ， 在 这 个 试验 中 用 下 述 方法 产生 . 
x 的 重 在 区 则 1 -1,1] 均 名 分 布 ，x; 的 值 与 x, SESE, H 
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HE, HP s 是 加 性 Gaus FMRE, Fi 0, JEN 0.04. 
Be} 8- 14 所 示 的 PCA M28 FRE A SS 
K(x,x ) = (x’x )", d = 1,2,3,4 
得 到 的 ， 其 中 d= 1 SEMEAR KE PCA, d = 2,3,4 0007-7 4% PCA. 线性 PCA 可 图 8-14 左面 所 示 ， 
A Ara ASL ACE, (PPE PTE a, FR, FA PCA 允许 抽出 高 阶 分 量 ， 结 果 妇 图 
8-14 FHI 2, 3. 45a, RS d=2.3.4 8, SPR aR EAE PCA 情 
ENPE AEREE Faas fs Bk = p CE SPE LK I AE EE AD) 
cae 709 特征 慎 =0.521 慎 =0. K 特征 值 =0.552 


| ZX NAN \ cy a N 







ah lg 


2: 


特征 值 =0.291 =0. a 











PA S-14 THAR PCA AE al, MASA, Rete d- 1.2.3.4. M KE 
下 ， 旺 未 特征 空间 中 的 前 而 三 个 特征 峡 基 ,第 一 列 对 应 普通 的 PCA， 后 三 列 对 应 党 
Til ATK d =2,3,4 (FE PCAC H hl Dr. Kiaus-Robert Muller 人 允许， 


RRA 8-14 显示 的 结果 可 得 到 如 下 结 
© 如 所 期 望 的 ， 线性 PCA 不 de 性 输入 数据 提供 足够 的 描述 。 
” 在 所 有 情况 下 ， 第 一 个 主 分量 涪 善 构成 输入 数据 的 拍 物 线 单调 变化 。 
© TEE PCA 中 ， 对 不 同 的 多 项 式 次 数 4， 第 2 和 第 3 个 主 分 量 展示 一 定 的 相 代 性 ， 
© 在 多 项 式 次 数 4 =2 情况 下 ， 核 PCA 的 第 3 个 主 分 量 显现 出 找到 各 性 高 斯 噪声 "的 
方 过 。 消 除 这 个 主 分 量 的 影响 ， 在 效果 上 实际 是 执行 某 种 形式 的 噪声 消除 。 
a 


8.11 小 结 和 讨论 


在 这 一 齐 由 ,我们 提供 处 理 主 分 量 分 析 理 论 和 用 神经 网 络 对 其 实现 的 材料 。 现 在 我 们 回 
MEHRERE: 主 分 量 分 析 有 多 大 用 途 ” 这 个 问题 的 答案 当然 依赖 于 有 兴趣 的 应 用 。 

如 打 主 要 目标 是 保存 尽 可 能 多 的 输入 向 量 中 的 信息 ， 并 得 到 较 好 的 数据 压缩 ， 则 主 分 量 
分 析 提 供 一 个 有 几 的 自 组 织 学 习 过 程 。 这 里 从 8.3 节 的 材料 ， 我 们 注意 到 利用 基于 输 人 数据 
HBI I TERNE 的 子 空间 分 解 方法 所 提供 的 线性 映射 ， 它 在 允许 初始 输入 信和 号 的 重建 按照 
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HARARE TERRIER. Esh, ETR: CEREN fo Vale OE Pe Dd 
TEF, HAWAR EA Pe PL (ee I AE, EE, A AREE 
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1s R48 Ae Att Ear ET AEH. 

AAR HY [8] LAE aN a os LT RE A. FCA RE Ee A, EAEE HE 
RAR ARNE A. WREDA PARR AES eT Bia ES Ea 
类 的 投影 具有 好 的 分 离 ， 因 此 提供 用 于 特征 提取 的 有 效 基 础 。 

在 这 后 面 的 讨论 中 我 们 提 太 主 分 晤 分 析 器 的 有 效应 用 一 一 作为 监督 神经 网 络 ( 例 如 反 向 
传播 训练 的 多 层 感 知 右 ) 的 预 处 理 器 。 这 里 的 动机 是 通过 对 输入 数据 去 相关 来 础 速 学 习 过 程 
的 收 人 得 :一 个 诸如 及 自传 播 算 法 的 监督 兰 习 过 程 依 穆 于 最 速 下 降 。 因 为 多 层 感知 器 的 帘 触 权 
值 对 误 郑 信号 相互 作用 的 效果 ， 即 使 使 用 诸如 对 单个 梭 值 使 用 如 人 动量 项 和 自 适 应 学 习 率 之 
类 的 简单 局 部 加 速 这 程 ， 这 种 形式 的 学习 过 程 收 钙 仍然 特别 慢 。 然 而 ， 如 果 多 层 感 知 的 输入 
由 不 相关 的 分 量 组 成 ， 从 第 4 章 给 出 的 计 论 中 我 们 注意 代价 函数 名 (n) 关 于 网 络 自 由 参数 的 
Hessian 定 阵 将 比 华 其 他 情况 下 更 接近 于 对 和 化 。 因 为 有 这 种 适当 形式 的 对 角 化 ， 则 独立 地 
泊 寿 每 个 权 值 煌 适当 地 握 高 学 习 率 ， 用 简单 的 局 部 加 速 过 程 就 会 使 收敛 过 程 有 相当 大 的 加 有 速 
( Bercker, t991}; 

由 于 这 一 更 基 于 Hebb 的 算法 是 由 源 于 神经 生物 学 的 思想 所 激发 ， 因 此 以 对 生物 感知 系 
统 中 主 分 量 分 析 的 作用 的 评论 作为 结束 是 合适 的 。Linskert 1990a) 怀疑 主 分 量 分 析 作 为 一 个 
原则 的 “元 分 性 "， 该 原则 用 于 决定 通过 单个 神经 元 分 析 输 人 “场景 "(scene) 的 一 个 总 体 所 产 
生 的 啊 应 性 质 。 特 别 地 ， 关 于 从 神经 元 的 响应 实现 对 输入 信号 的 精确 重建 与 主 分 量 分 析 最 优 
性 的 相关 性 值得 怀疑 。 一 般 地 ， 人 和 人 脑 所 做 工作 很 显然 比 通过 感觉 单元 的 接收 信号 然后 再 简单 
种 现 输 人 场景 复杂 得 多 。 相 反 ， 一 些 潜 在 的 “有 意义 的 线索 "或 特征 被 抽出 来 使 得 对 输入 得 到 
高 层 的 解释 。 因 此 我 们 可 能 对 这 个 讨论 开始 时 提出 的 问题 加 深 了 疑问 ， 并 有 旦 会 间 ， 主 分 量 分 
析 过 程 对 感知 过 程 到 底 有 什么 用 处 ? 

STEP BREE PH Dija(1982) 利 Sanger(1989a) 建 立 用 于 主 分 量 分 析 的 算法 { 即 8.4 
TA 8.5 和 讨论 的 基于 Hebb 规则 的 算法 }，Ambros-Ingerson et al.(1990) 指 出 了 它们 的 重要 意 
六 。 他 们 提出 假设 认为 分 层 聚 类 可 以 表现 为 基于 长 期 潜能 (lone-tenmm potentiation, LTP) ict 
的 基本 性 质 ( 至 少 部 分 性 质 ) ， 这 个 性 质 能 够 被 用 作 识 别 环 境 的 线索 ， 所 谓 长 期 法 能 就 像 在 皮 
屋 球状 网 络 发 现 的 一 类 突 触 修改 和 在 人 脑 其 他 区 域 里 类 似 设计 的 回路 。 自 组 织 主 分 量 分 析 对 
企 大 脑 育 技 中 学 习 线索 的 分 层 聚 类 具有 重要 意义 ， 这 一 点 并 不 是 因为 它 的 最 优 重 建 性 质 ， 而 
是 由 于 其 挑选 的 聚 类 投影 具有 好 的 分 离间 隔 这 一 内 在 性 质 。 

主 分 量 分 析 在 感觉 处 理 中 的 男 一 个 有 趣 的 作用 宕 现 次 阴影 成 像 { shape-from-shading ) 问题 
的 一 个 方法 中 ， 这 是 出 Atick et al.(1996) 提 出 的 。 此 问题 可 陈述 如 下 : 脑 怎 么 能 够 从 投影 到 
二 维 图 像 的 阴影 模式 感觉 二 维 形状 ? Aik 等 人 提供 一 个 阴影 成 像 问 题 的 分 层 解 ， 和 包含 两 个 
概念 : 

1. 通过 进化 或 先 验 经 验 ， 脑 已 经 发 现 这 样 的 物体 ， 很 据 它们 的 形状 就 能 分 类 成 较 低 维 
的 物体 类 。 这 个 概念 实际 建立 在 这 样 一 个 事实 的 基础 上 ， 即 脑 用 来 抽取 三 维 解释 的 线索 是 被 
透彻 了 解 的 。 

2. 按照 第 一 个 概念 ， 从 阴影 模式 中 抽取 形状 归结 为 低 维 空间 中 的 参数 估计 这 个 更 简单 
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的 问题 。 

例如 ， 人 类 头 型 的 整个 结 梅 必然 相同 ， 在 某 种 意 祥 上 所 有 的 人 都 有 四 出 的 曙 于 ， 下 陷 的 
有 眼 窒 ， 平 坦 竟 前 额 和 脸 束 区域。 这 个 不 变性 表明 对 任意 给 定 的 面部 ， 在 柱 面 ( 极 ) 坐 标 上 表示 
为 rt(9,1)， 可 以 用 两 部 分 和 来 表示 : 

riB, J = ro(6,2) + ol0,7) 

其 中 rm.(9, 由 表示 对 某 类 特定 人 人 (如 成 年 男性 或 成 年 女性 ) 的 平均 头 (mean-head)，p(9, 门 表示 
HR Ree A REEDS. 通 和 pt9, 了 站) 与 ro (6, DFR LEAR AD. Atik 等 用 主 分 量 分 析 表 示 
p08, 站 ,因此 波动 由 一 组 特征 函数 表示 ( 即 特 征 向 量 的 二 维 对 应 物 }。Atick et al. (1996) HRE 
明 对 条 个 人 用 这 个 人 给 定 的 一 个 二 维 图 像 ， 利 用 两 阶段 分 层 方法 具有 恢复 3 维 曲面 的 能 力 ， 


注释 和 参考 文献 


1] 在 多 元 分 析 中 ,， 主 分 量 分 析 (PCA) 或 许 是 最 早 的 和 最 有 名 的 方法 (Jollife, 1986; 
Preisendorfer, 1988), 了 最早 由 Pearson{1901)3 引 | 人 ， 广 生物 学 背景 下 他 用 它 来 重建 线性 回 
上 归 分 析 殉 新 形式 。 语 来 Hotellinpg(1933) 在 做 心理 测验 时 将 它 发 展 。 看 米 Karhunen( 1947) 
年 在 概 淘 论 框架 下 再 次 独立 地 讨论 了 它 ; 随后 被 Loéve(1963} 推 广 。 

[2] Ljung(1977) Al Kushner and Clark(1978) 研 究 随 机 道 近 算 法 的 动态 行为 所 采取 的 措施 妇 结 
为 研究 对 应 差分 方程 的 动力 学 的 问题 。 然 而 这 两 种 方法 根本 不 同 。Liung 的 方法 是 利用 
Lyapunov WA$, M Kushner #! Clark 采用 的 方法 涉及 线性 插值 过 程 和 利用 Arzelà- Ascoli 定 
理 (Dunford and Schwartz, 1966 )。 Kushner 和 Clark 的 方法 接着 在 Diamantaras and Kung 
(1996) Fae Ait se RTE Hebb 的 最 太 特 征 滤 波 兢 的 收 合 性 。 其 中 得 到 的 结论 与 用 
Ljung 方法 得 到 的 相同 。 

[3] Fsldiak(1989) 扩 展 用 于 主 分 量 分 析 的 神经 网 络 结构 ， 引 人 反 Hebb 规则 的 反馈 连接 。 这 
个 履 改 的 动机 源 于 Barlow and Faldiak(1989) 关 于 视觉 皮层 的 自 适 应 和 去 相关 的 早期 工 
作 ; 他 们 提出 如 果 神 经 元 按照 反 Hebb 规则 相互 作用 ， 则 神经 元 输出 定义 一 个 上 华 标 系 
统 ， 在 这 个 坐标 系统 中 ， 即 使 输入 具有 很 强 的 相关 人 性， 输出 也 不 具有 相关 性 。 

Rubner and Tavan( 1989) 和 Rubner and Schulten( 1990) tH $E E ffi HY AB 4 oc ee FA 
问 排 制 。 然 而 ， 不 像 Foldiak 提出 的 模型 ，Rubner 等 人 考虑 的 侧 向 网 络 有 是 不 对 称 的 连 
接 。 相 反 ， 侧 向 网 络 是 分 层 的 ， 其 中 (比如 说 ) 神 经 元 i 抑制 除了 1,2,… ,i -1 外 的 所 有 
神经 元 ,其 中 i =1,2,…。 

Kung and Diamantaras (1990) 研 究 的 APEX 模型 与 Rubner 等 人 的 模型 具有 相同 的 网 络 
拓扑 ， 介 是 Kung and Diamantaras (1990) 的 APEX 模型 在 调整 前 馈 和 铀 向 连接 的 权 值 时 均 
使 用 Dia 的 单个 神经 元 学 习 规 则 {在 8.4 节 描 述 )。 

[4] Chen and Liut1992} 给 出 APEX 算法 收 俩 性 的 严格 证 明 ， 所 有 的 神经 元 趋 于 同时 收敛 ， 

5] 讨论 主 分 量 分 析 的 几 个 神经 模型 和 它们 的 比较 ， 请 参看 Diamantaras and Kung( 1996) 的 
书 。 

[6] 非 线 性 PCA 方法 ， 除 了 核 PCA 外 ， 可 以 被 归 人 三 类 网 络 (Diamantaras and Kung, 1996): 

。 Hebb 网 络 ， 用 非 线 性 神经 元 代 蔡 基于 Hebb 规则 的 PCA 算法 揭 线 性 神经 元 得 到 。 
* 复制 器 网 络 或 自动 编码 器 ， 建 立 在 多 层 司 知 器 基础 上 : SHRMAEA 4 章 讨论 。 
© 主 曲 线 ， 基 于 根 获 数据 结构 的 曲线 就 曲面 的 达 代 估计 (Hastie and Smetzle,1989)。 在 
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Ritter et al. (1992) 利 Cherkassky and Mulier( 1995), 4814 Kohonen AY A HAR BRAY n i 
AI ACHE ee RAIA: HARARE Fee. 
>) 
基于 Hebb 的 最 大 特征 滤波 器 
8.1 对 于 例 8.,2 中 考虑 的 匹配 溃 波 器 ， 特 征 值 A 和 对 应 的 特征 向 量 为 q, 定义 为 
A = leo, qd = 8 
证 明 这 些 参 数 满足 基本 的 关系 
Rq, = àq 
HP OR Ay A le) at X ARER, 

8.2 IRR ARERR aS, PRIÉ w(n) 按 照 式 (8.465) 演 化 。 证 时 随 着 = 趋向 于 无 穷 
大 ， 谈 波 器 的 输出 方差 趋向 于 Xe， 其 中 X 为 输 和 人 向 基 相关 年 阵 的 最 天 特征 值 。 

8.3 次 分 量 分 析 (minor components analysis, MCA ) 与 主 分 其 分 析 是 相反 的 。 在 MCA M, 
拒 们 守 找 投影 方差 最 小 的 方 同 。 这 样 得 到 的 方 品 对 应 于 输入 向 景 OX) FOF SESE 及 的 最 小 
AP E(B AO FETE fo] Bt a 

EPF, FR TTR CE ER 8.4 节 的 单个 神经 元 发 现 及 的 次 分 量 。 特 别 烛 ， 我 们 可 以 
对 式 (8.40) 的 学 习 规则 改变 符 守 ， 得 到 (Xun et al. ,1992) 

win +l) = wn) - qv(ndlx,(n) - yinjw ln)] 
HE BH Sn RARER OR OAPI aA, BRA 1, m 
limw(n) = An 
其 中 gq, 是 与 和 对 应 的 特征 向 基 。 
基于 Hebb 的 主 分 量 分 析 

8.4 构造 一 个 信号 流 图 表示 阿 基 值 等 式 (8.87) 利 (8.88)。 

8.5 在 8.4 节 描述 的 用 于 收 合 性 分 析 的 常 微分 方程 方法 不 能 直接 用 于 )” 义 Hebb 学 习 算 
法 (GHA)}。 然 而， 通过 将 式 (8.91) 的 突 触 权 值 矩阵 Won) Won) i eH, 
则 我 们 可 以 用 通常 的 方式 解释 更 新 图 数 ht .')， 然 后 继续 应 用 渐进 稳定 性 定 理 。 A, R 
据 此 媳 己 有 的 说 明 ， 证 明 GHA 算法 的 收 化 性 定理 。 

8.6 在 这 个 习题 中 ， 我 们 可 以 探讨 利用 广义 Hebb 算法 来 研究 随机 输入 向 量 产 生 的 二 维 
接收 域 (Sanger,1990 )。 随 机 输入 包含 独立 于 高 斯 噪声 具有 零 均 值 和 单位 方差 的 二 维 域 ， 它 
与 高 斯 屏 项 (滤波 器 ) 作 卷 积 ,然后 乘 以 一 个 高 斯 窗 。 高 斯 屏 项 有 两 个 像素 的 标准 偏差 .高 斯 
何 有 38 个 像素 的 标准 偏差 。 在 位 置 (r,s) 的 结果 随机 输入 x{r,s) 因 而 可 以 写成 

a(r,s} = mlr,si[l g(r,s) x wlr,s) | 
其 中 wlr, se VAD PARR. eo JERR, mlr, s) EA AR, 
g(r. s) AU wir, s VDE et H 


e(r,s)*wlris) = >) Soglp.q)wlr - pis -— q) 


定义 ， 其 中 g(r,s) 和 wr, SRRA. 
用 随机 输入 xlr, ság 2000 个 样本 训练 基于 CHA 算法 的 单 层 前 镇 网络。 网 络 有 4096 个 
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eA, HEFIR 64 x 64 RRR, A 16 a. URE Ee ER A 64 x 64 阵列 的 
数 表 示 。 执 行 上 述 计算 并 显示 突 触 权 值 作为 二 维 屏 项 的 16 ES. BETES ER 

8.7 式 18.113) 和 定义 计 算 前 人 馈 权 值 向 量 aa) 的 修正 公式 (8.106) 的 变换 形式 。 变 换 基 于 
由 式 (8.109) 给 出 的 网 络 的 m 主 模式 关于 突 触 权 值 向量 w(x) 的 定义 。 导 出 式 (8.113)。 

8.8 FEA OKRA, EHA 8- 12 的 信 沪 流 图 表示 ， 对 应 于 lckej-t. 

《a) 写 出 这 个 2x2 生 阵 的 特征 方程 的 公式 。 

(bb 让 明知 阵 有 一 个 二 备 特 征 值 。 

(eME: 网 络 的 所 有 主 模 式 有 相同 的 特征 值 。 

8.9 GHA 羽 用 前 局 连 楼 ， 而 APEX 算法 使 用 前 局 连接 和 侧 向 连接。 尽管 存在 这 些 差 别 ， 
EHHE fF APEX 和 GHA 的 长 期 收 伍 行为 是 相 加 的。 证 明 这 个 结论 的 人 台 理 性 。 
核 主 分 量 分 析 

8.10 令 下 ,表示 核算 阵 KK 的 第 六 个 元 索 天 :中心 化 后 所 对 应 的 部 分 。 证 明 (Schalkopf， 
1997 } 


K, = Ki a + 249" (x pcx, } — A 20 (x )p(x,) + 站 » Dg xq 0x, 


[402] 建议 用 紧凑 的 矩阵 形式 表示 这 个 关系 。 


8.11 DEAR AME K 的 特征 向 量 a 的 喇 一 化 与 满足 式 18.153) 的 茶 件 等 价 。 
8.12 小 结核 主 分 量 分 析 的 性 质 。 
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9.1 简介 


在 这 一 章 我 们 通过 考虑 一 种 称 为 白 弓 织 映 射 的 特殊 人 工 神经 网 络 继续 研究 自 组 织 系 统 . 
1X Fe B24 HEF 3 FF (competitive leaming); 网 络 的 输出 神经 元 之 间 互 相 竞 争 以 求 被 激活 或 
点 火 ， 结 采 在 每 一 时 刻 只 有 一 个 输出 神经 元 ,或 省 每 组 只 有 一 个 输出 神经 元 被 激活 或 点 火 。 
昭 得 竞争 的 一 个 输出 神经 元 被 称 作 胜 者 全 得 (winner-takes-all) 神 经 元 或 简称 获胜 (winning) 神 经 
元 。 在 输出 神经 元 中 导出 胜 者 全 得 的 竟 争 方法 是 在 它们 之 间 便 用 出 抑 制 连接 ( 邵 负 反馈 路 
fed; 这 个 思想 是 由 Rosenblatt( 1958) 最 先 提出 的 。 

从 自 组 织 了 映射 里 ， 神 经 元 被 放置 在 网 格 节 点 上 ， 这 个 网 格 通常 是 一 维 或 是 两 维 的 。 更 高 
维 映射 也 可 以 ， 但 是 不 常见 。 在 竞争 学 习 过 程 中 ， 神 经 元 变化 依 不 同 输 人 模式 (刺激 ) 或 者 输 
大 模式 的 类 别 而 选择 性 地 调整 。 这 样 调 整 后 神经 元 ( 即 获胜 神经 元 ) 的 位 置 彼此 之 间 成 为 有 序 
的 ， 使 得 对 于 不 同 的 输入 特征 ， 在 网 格 上 建 并 起 有 意义 的 坐标 系 (Kohonen,1990a)。 因 此 自 组 
组 映射 由 输 人 模式 的 拓扑 映射 (topographic map) 结 构 所 表征 ， 其 中 网 格 神经 元 的 空间 性 置 表 
示 输 入 模式 包含 的 内 在 统计 特征 .“ 日 组 织 映 射 "因此 得 名 。 

作为 一 个 神经 模型 ， 自 组 织 上 映射 六 两 个 自 适 应 层次 之 间 提 供 一 个 桥梁 : 

© 在 单个 神经 元 的 微观 层次 形成 自 适 应 规则 。 

a 在 神经 元 层次 的 微观 层 上 形成 特征 选择 在 实验 上 更 好 的 和 有 具体 可 实现 的 借 式 。 
因为 日 组 织 上 映 帅 本 奈 上 是 非 线 人 性 的 ， 因 此 它 被 视 为 主 分 量 分 析 的 非 线 性 推广 (Ritter, 1995)。 

发 展 晶 组织 上 映射 作为 神经 模型 是 由 人 人 脑 的 一 个 突出 特征 所 激发 ， 人 人 脑 在 许多 地 方 以 这 样 
一 种 方式 组 织 起 来 ， 使 得 不 同 的 感觉 输 人 由 括 扑 有 序 的 计算 映射 {topologically ordered 
computational map) 来 表示 。 特 别 ， 感 觉 输 人 如 触 觉 (Kaas et al. ,19837 、 视 觉 (Hubei and Wiesel. 
1962 ,1977) 和 和 明 视 {Suga,1985) 用 拓扑 有 序 的 方式 映射 到 人 脑 皮层 的 不 同 区 域 。 这 样 在 神经 系 
统 的 信息 人 处 理 基 本 结构 中 ， 计 算 映 射 组 成 一 个 基本 构件 。 一 个 计算 映射 由 神经 元 阵列 定义 ， 
这 些 神 经 元 表示 上 略微 不 同调 制 的 处 理 器 和 滤波 器 ， 它 们 并 行 处 理 携 带 信 息 的 传 感 信号 。 所 
以 ， 神 经 元 将 输 和 人 信号 转 变 为 空间 位 置 编码 的 概率 分 布 ， 分 布 通过 映射 中 最 大 相关 激活 的 位 
SPOR BRT AAA ( Knudsen et al. ,1987)。 用 这 种 方式 时 出 的 信息 属于 这 样 一 种 形式 ， 它 
可 以 用 于 使 用 相对 简单 的 连接 模式 的 高 阶 处 理 器 ， 


本 章 的 组 织 


这 一 重 所 讨论 的 关于 计算 映射 的 资料 是 控 下 面 方式 组 织 的 。 在 9.2 节 ， 我 们 描述 两 个 特 
征 瞻 射 横 型 ， 它 们 用 目 己 特有 的 方式 解释 或 抓 住 人 脑 中 计算 映射 的 本 质 特征 。 两 个 模型 使 用 
的 输 人 形式 彼此 不 同 . 

本 章 其 余 剖 节 详 细 地 讨论 这 些 模型 中 的 一 个 ， 通 常 称 为 “ 自 组 织 上 映射 "， 由 Kohonen 
(1982) 提出。 在 9.3 节 里 我 们 使 用 神经 生物 学 的 老 虚 方法 建立 Kohonen 模型 的 一 个 数学 公式 。 
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该 模型 的 小 结 在 9,4 节 给 击 。 模 型 的 重要 特性 在 9.5 Di, a 9.6 PITIE ENG FAL 
iF. FEER APE BER eS a] BL PR od ET a; 这 个 技术 
在 9.7 节 讨论 。9.8 节 描 述 一 个 关于 自 适 应 模式 分 类 的 计算 机 实验 ， Ee MH B ESRR 
和 学 习 向 量 量 化 。 在 9.9 WHET AAR OTE eae, 全 用 十 数据 压缩 。9.10 节 
描述 男 一 个 自 组 织 出 射 的 应 用 ， 几 于 建立 上 下 文 映射 ， 它 从 文本 中 音素 类 别 的 无 监督 分 类 、 
交感 和 数据 探索 中 找到 应 用 本章 在 9.12 玉 给 出 一 些 最 终 评价 作为 结束 。 


9.2 ATZERRI ERRER 


EMA R RREA D E BS ETA A AK e 9 ik BP PRE, ARL 
平 完 全 被 大 脑 朗 卡 所 包围 ， 它 席 需 了 上 其 他 部 分 ， FRAP Set, ARR ga T F 
出 中 任何 已 和 的 结构 (Hubel and Wiesel, 1977}。 同 样 给 我 们 深刻 印象 的 是 将 不 同 的 感觉 输入 
(运动 、 冉 体 的 体 觉 、 视 党、 听觉 等 ) 以 一 种 有 序 的 方式 映射 到 相应 的 大 脑 皮 质 区 域 的 方法 ; 
ASR, AA 24 的 大 脑 皮 不 的 细胞 结构 图 .计算 映 避 的 伍 用 提供 下 面 的 特性 
(Knudsen et al. , 1987): 

* 在 表 沙 的 每 一 阶段 ， 每 一 个 新 来 的 信息 片段 保持 在 它 合 适 的 位 置 中 ， 

* 处 理 品 度 相 关 的 信息 片段 的 神经 元 被 紧密 地 联系 到 一 起 ， 通 过 短 的 突 触 连接 使 得 尼 

们 能 够 交互 。 

我 们 的 兴趣 在 于 建 妾 大 工 拓 扑 贞 种 ， 
它 以 昼 经 生物 学 激励 的 方式 通过 自 组 织 来 
学 习 。 在 这 段 文字 中 ， 从 大 脑 的 计算 有 贞 射 
的 非常 简短 的 讨论 所 体现 的 重要 -点 是 丘 
4p Re Ht OR RT, 它 可 以 陈述 如 下 
( Kohonen, 1990a ) : 


在 拓扑 瞎 射 中 和 输出 神经 元 的 空间 位 置 
对 应 于 特殊 的 定 头 域 或 从 和 输入 空间 拍 取 数 
HE ay HE AE 


这 个 原则 提供 了 这 里 描述 的 两 个 基本 不 同 
的 特征 映射 模型 的 神经 学 生物 基础 。 
图 9-1 展现 两 个 模型 的 布局 。 在 两 种 获胜 神经 元 
情况 下 输出 神经 元 被 安排 在 二 维 的 网 格 
中 。 这 种 拓扑 确保 每 个 神经 元 都 有 … 组 邻 
域 。 模 型 间 的 区 别 在 于 输入 模式 的 指定 方 
xk. 
Fl 9-1a 的 模型 由 Wilshaw and von der 
Malsburg( 1976) 在 生物 学 基础 土 首 先 担 出 
的 ， 用 议 解 释 ( 在 高 级 着 椎 动物 中 ) 从 视 网 
腊 到 视觉 皮质 的 视觉 映射 的 问题 。 具 体 ESL AT RA ERAT 
地 ， 有 两 个 不 同 的 二 维 网 格 神 经 元 连接 在 i 
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s P a = s T E E e e — 
——— —— es a ——— a - - 








— He, PRHA- -A -ARREA RA GAA E, TCS is E a 
HOARE. fg RAE PRIR E HH 2 t a PL ( short-range excitatory mechanism ) FH K 48 pp A) pL 
(long-range inhibitory mechanism), X PPPI A A LAERA HO Ba AA 
个 网 格 由 Hebb WAJ AR AHERE. A RRE, JR ASE EERO: 相 
H E HAARE AAA RATA K Wi 4, ONT SIRO a Sas 
AEE ER R AS (BS EB, BE UG SR A LARS, AEA 
PE 7 HE 32 AE 7 Pa a 3h A 2 F. Willshaw-von der Malsburg Aa TY RSG Ae EU AB 
wee RD FAN EH A 2S TS) JLA SB aes AE TB RSE, FP EIR ARR AHA 
ERAS EE 1G FF SB AY Bi SS AH AS CE AS a, Mh BARA ba Fk 
BEET. (Eee EE Willshaw-von der Malshurge #2 7! BR Hl Ay AHI San HH PEE A FH EL AS) BE by o 

图 9-1b 的 第 二 个 模型 ， 由 Kohonen(1982) 引 入 ， 并 不 在 说 明神 经 生物 学 的 细节 模型 抓 
住 入 脑 中 计算 映射 的 本 原 特 征 而 且 保 贸 计 算 的 易 行 性 ? 。，Kohonen 模型 看 起 来 比 Willshaw-von 
der Malsburg 避 型 时 为 一 般 ， 前 者 能 进行 数据 压缩 5( 即 输入 维 数 的 缩减 )。 

现实 中 ，Kohonen 模型 属于 向 量 - 编码 (vector-coding) 算 法 的 类 型 ,模型 提供 一 个 拓扑 上 映 
射 ， 蕊 最 优 地 设置 固定 数 日 的 向 量 ( 即 编 耕 字 ) 到 高 维 答 人 空间 ， 因 此 寿 利 于 数据 上 谎 缩 。 
Kohonen 模型 因此 可 由 两 种 方式 导出 。 我 们 可 以 用 由 挤 经 生物 学 考虑 所 激发 的 自 组 织 的 基本 
二胡 导出 模型 ， 这 征 传 统 的 方法 (Kohonen,1982, 1990a, 19972). AFN, T HAH E HERA 
E, EEA A SH, CHS RRR. ERARE 
种 方法 。 

在 文献 中 Kohonen 模型 比 Willshaw-von der Malsbury 模型 受到 更 多 的 注意 。 它 拥有 在 本 音 
后 面 讨 论 的 一 些 性 质 ， 这 使 得 它 对 人 脑 中 的 皮质 映射 的 理解 和 建 模 有 特殊 的 兴趣 。 本 章 剩余 
部 分 介绍 自 组 织 映射 的 导出 、 它 基本 性 质 和 细节 。 


9.3 BARRA 


AHE eT ¢ self-organizing map, SOM) A) FE A BARRE ee A fe RE E y — 
AEX EMS BL, FF EDA At Aa ee Bak SPH, [el 9-2 Bh SEB aR 
映 咽 的 二 维 神经 元 网 格 的 简要 图 表 。 网 格 中 每 个 神经 元 和 输入 层 的 源 节点 全 连接 。 这 个 网 络 
代表 具有 神经 元 控 行 和 列 构成 的 单一 计算 层 的 前 馈 结 构 。 一 维 网 格 是 图 9-2 描绘 的 构 形 的 一 
个 特例 ， 在 这 种 特殊 情形 计算 层 仪 由 单一 的 行 或 列 神经 元 构成 。 

呈现 给 网 络 的 每 个 输入 模式 ， 通 常 包含 面 对 平 静 背 景 的 一 个 局 部 化 活动 区 域 或 "点"。 这 
个 扩 的 位 置 和 性 奈 通 常 随 输入 模式 的 实现 不 同 而 不 同 。 因 此 输入 网 络 中 所 有 神经 元 应 经 历 输 
ATK EGO RAHA ASCE, HERA PLS SE eee SR BAA. 

TA or Re BAA Ry BE, BET PER E A, PERT LL A 
RP SS PBR MAP ETT: ea, ERER LRA ARK. —A p 
络 被 恰当 初始 化 ， 在 白 组 织 映射 的 形成 中 有 三 个 主 变 过 程 ， 小 结 如 下 ， 

1 . 芝 争 。 对 每 个 输入 模式 ， 网 络 中 的 神经 元 计算 它们 各 自 的 判别 函数 的 值 。 这 个 判 出 
疯 阁 对 神经 元 之 间 的 竞争 提供 基础 。 具有 判别 函数 最 大 值 的 特定 神经 元 成 为 竞争 的 胜利 者 。 


2. 合作 。 获 胜 神经 元 决定 兴 林 神经 元 的 拓扑 邻 域 的 空间 位 置 ， 从 而 提供 这 样 的 相 邻 神 要 


经 元 合作 的 基础 。 
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日 





图 9-2 PRC LE 


3. 突击 调节 。 最 后 的 这 个 机 制 使 兴 理 神经 元 通过 对 它们 罕 般 权 什 的 适当 调节 以 增加 它 
们 关于 该 输入 模式 的 判别 郴 数 值 。 押 做 的 调节 使 获胜 神经 元 对 以 后 相似 输入 人 覆 陈 的 啊 应 增强 
Fo 

竞争 和 合作 的 过 程 符合 第 8 BPE AGS BA RA. SEP Ae, ER 
源 于 自 适 应 过 程 的 Hebb 学 习 的 修正 形式 。 如 第 8 章 的 解释 ,输入 数据 中 的 元 余 ( 虽 然 在 描述 
SOM 算法 时 没有 明显 提 及 ) 对 学 习 是 沉 要 的 ， 畴 为 它 提供 知识 。 霹 在 给 出 再 争 、 合 作 和 突 甬 
We? EDA PAE o 


re PIE 


& m Bern fi A CBE) AAR. MA T a p ENUE R A PRL E NLA 
KX = [和 (9.1) 
网 络 中 每 个 神经 元 的 帘 秀 权 什 向量 和 输入 空间 的 维 数 相 同 。 神 经 元 7 的 罕 触 权 征 向 量 记 为 
W = to (9.2) 
其 申 1 是 网 络 中 神经 元 的 总 数 。 为 了 找到 输 何 量 x 与 突 触 权 值 问 量 Ww WY ee SLAC, Aj = 
1,2,… i ERWE w x 并 选择 最 大 者。 这 里 假定 所 有 的 神经 元 有 相同 的 阅 值 ; Aes 
取 负 。 这 样 ， 通 过 选择 具有 最 大 内 积 wis 的 神经 元 ， 我 们 实际 上 决定 了 兴奋 神经 元 的 拓扑 
邻 域 中 心 的 位 置 。 
从 第 1 音 我 们 回想 基于 内 积 wx RACHEAL, ER EiT E a A w, 
的 Euclid 距离 的 最 小 化 。 如 果 用 标号 i (x) de eet BE aca A E x ZBL, 我们 可 以 通过 
Pa Hee i(x): 
i{x} = arg min || x 一 w; E, j= 1,2,°7,2 (9.3) 
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经 元 i, TRAE PE BE Sc i BRERA [a E ox 的 神经 元 或 获胜 神经 元 。 式 (9.3) 于 
出 这 样 的 观察 : 

激活 模式 的 连续 输入 空间 通过 网 络 中 神经 元 之 间 的 竞争 过 程 映射 到 神经 元 的 离散 输出 空 
fal 

根据 点 用 的 不 同 ， 网 络 的 响应 可 能 是 获胜 昼 经 元 的 杯 妇 ! 即 它 芷 网 烙 中 的 位 痢 ) 或 者 是 在 
Euclid PE R ES FRB A IF) E BY) E A E E o 


SIFI 


获胜 神经 元 位 于 合作 神经 元 的 拓扑 邻 域 的 中 心 。 关 键 问题 是 : 我 们 怎样 定义 一 个 在 神 
径 生 物 学 上 正确 的 拍 卜 邻 域 ”为 了 回答 这 个 问题 ， 记 作对 于 一 组 兴 否 神经 元 的 便 向 相互 
‘EAA BARE HIE. Aw, —PRAKAN AS hh SRE SEY BRAS 
IU he A eC a Ge Ho, TEA SALA. PMS SR RS 
TRIERA ik Hee M fs) BE A Ge Ae"?! (Lo et al. , 1991, 1993; Ritter et al. , 1992), HEH, 
设 ,表示 以 获胜 神经 元 i AUD FFP OBR Wd, FAR TERRA HS i ADE RA 
的 侧 呵 旺 离 。 然 后 我 们 可 以 很 定 拓扑 部 域 h EME d, Ra Ee A 
不 同 的 要 求 : 
。 拓扑 邻 域 h, ,关于 下 ;=0 定 义 的 最 大 点 是 对 称 的 ; BATE, FES 也 NERE 
神经 元 i 处 达到 最 大 值 。 
。 拓扑 邻 域 A, FOUR RE (Ae RS d, ,的 增加 而 单调 递减 ， 当 4 OMS; 对 
收 钙 来 说 这 是 一 个 必要 条 件 。 
满足 这 些 要 求 的 一 个 有 ME E H R R 


a 
Ri its) = expl — 4 (9,4) 


它 是 平移 不 变 的 { 即 不 依赖 于 获胜 神经 元 的 位 置 )。 图 9-3 Pas Be o EHF OR A 
度 ”"; 它 度量 靠近 获胜 神经 元 的 兴奋 神经 元 三 学 习 过 各 中 参与 的 程度 。 束 量化 来 遍 ， 式 (9.4) 
所 示 的 高 斯 拓扑 邻 成 比 什 形 形 式 的 拓扑 分 域 在 生物 上 更 合 了 过 。 尼 的 使 用 使 SOM 算法 的 收敛 
速度 比 和 矩形 拓扑 郭威 更 快 (Lo et al. , 1991, 
1993: Erwin et al. ,1992a )。 LQ 

ATF She eae EL AE. B 
SR BK PFARA ,依赖 获胜 神经 元 i 
和 兴奋 神经 元 i Eih a le) Mee d., 
mht T ERRA T Ea EE 
量 。 这 正 是 在 式 (9.4) 中 我 们 所 表达 的 意 
Xe MERREIKH, d ,是 整数 日 等 于 1] 
-ils HAH, AEREA E 
定义 为 0 
Ëi = llr, -r i? (9.5) 图 9-3 Gauss SiR BH 


d+ 


oo 
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其 中 离散 向 量 工 a LNAI A, Mr EE MSI MR. APE 
离散 输出 空间 中 度量 的 。 

SOM 算法 的 巡 一 个 独 有 特征 是 拓扑 邻 域 的 大 小 稍 时 间 收 缩 。 这 个 要 求 道 过 使 护 扑 邻 域 
pK A, ,的 宽度 5 随时 间 而 下 降 来 满足 。 对 于 = 依赖 于 离散 时间 n 的 流行 选 怪 足 由 


gin) = mexpl - z) l n= 0,1,2,0, (9.6) 


TEE HJIR BX $k TK Ritter et al. , 1992; Obermayer et al. ,1991 )， 其 中 5, 是 SOM Brh o 的 初 值 ， 
ea) Pa, A, HFB RERS HATERA, foe F 


a 
Aig la) = exp| = is] i n= i RA (9.7) 


其 中 atn) 由 式 (9.6) 定 义 。 于 是 随 着 nC AVIR (CR A EE on) LAER A BE, Th SBR 
LAF AE A) ACB BORER A, cy (re) BREE EER BE 

Fi — FP FBR AR hy a (Cn) TERR EPA IG i (x) JA E aS FC Lote. 
1989a J)o TERI Ay icy (MA El os tI PRENA TC EK, BA huw 
Cn) SURO, RT ALS Oe Be, AAR ST AU RE i SL EE 
PERR, kA a WAKA RS CAMERE Ae 
ROLAM, PRE SOM 算法 一 样 。 RE, tE HH E EHAE ( renormalized) SOM 的 训练 形式 
会 更 好 ， 这 样 我 们 工作 在 较 小 数量 的 正规 化 自由 度 上 。 通 过 使 用 恒定 宽 虚 的 坟 域 鲍 数 by ina) 
(na ， 但 连 渐 增加 神经 元 的 数量 ， 这 个 操作 很 容易 以 离散 形式 完成 。 新 的 神经 元 被 插 旬 已 有 有 
的 神经 元 之 入 ， 而 SOM 算法 的 平滑 性 保证 新 的 神经 元 以 很 好 的 方式 参与 突 触 自 活 应 
‘Lutirell, 1989a).， 重 正规 化 SOM 算法 的 概述 在 习题 9.13 ih. 


Aimee 


现在 我 们 来 讨论 特征 映射 自 组 织 形成 过 程 的 最 后 -个 过 程 ， 即 突 触 自 适 应 过 程 。 为 了 使 
网 络 成 为 日 组 织 的 ， 要 求 神 经 元 让 的 罕 触 权 值 向 星 w, 随 输 和 向量 x 改 变 。 问 题 是 怎样 作 改 
变 。 在 Hebb 学 习 假 设 中 ， 突 触 权 值 随 着 前 突 触 和 后 突 触 的 沿 活 同时 发 生 而 增加 。 此 方法 非 
前 适 合 联 想 学 习 。 然 而 对 于 这 里 考 虚 的 无 监督 学 习 ， 以 Hebb 假设 的 基本 形式 是 不 能 令 人 满 
意 的 ， 原 因 如 下 : 连接 的 改变 仅 发 生 在 一 个 方向 上 ,这样 最 终 使 所 有 的 突 触 权 值 都 趋 于 多 
可。 为 了 殉 服 这 个 问题 ， 我 们 通过 包括 一 个 遗忘 项 Cy w, 来 改变 Hebb 假定 ， 其 中 w, 是 神 
ZI j RRA, gO ) 是 啊 应 y 的 正 的 标量 函数 。 对 sy 的 性 一 强制 要 求 是 它 的 
Taylor BX fe FPA A A, ER TAT Se 
g{y,) = 0 MT yy, = 0 (9.8) 
这 个 要 求 的 意义 很 快 就 会 变 得 明显 。 给 定 这 样 一 个 除数 ,我 们 可 以 把 网 格 中 神经 元 i 的 权 值 
问 量 改变 表示 成 
Aw, = nx — g(y,) Wy; (9.9) 
其 中 1 是 算法 的 学 习 率 参数 - AEE Hebb 项 ， 第 二 项 是 遗忘 项 。 为 了 满足 式 {9.8)， 
对 gly, se PEER FE PSL a F 
EP) = ny, (9.10) 
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RIHTERA., E 
Y, = Nita (9.11) 
用 式 (9.10) 和 和 (9.10 代 人 人 式 (9.9) 得 到 
Aw, = nh cay (X = W, ) (9.12) 


最 后 使 用 离 区 时间 彤 式 ， 假 定 在 时 纪 n 神经 元 7 的 权 值 向 量 交 wina), EARE R 
won + 1) ZethhA a +1 AoE X (Kohonen, 1982; Ritter et al. , 1992; Kohonen, 1997a): 
wentl) = wn) t+ ninh uola- wind) (9.13) 
ER oy AB ae PR AE eto i BIRB H ETA T. (9.19) RASA i 
HJE ALILA E Bow, 向 输入 向 量 x 移动 的 作用 MUIR AE SM, By FE SRR Se 
EE AONB I Ss $e Me A) 4. BEA Se ae OA I IE e n a Sh aE 
JP, REKREA SD LE IES ALLA SE ly A, ATR- AES. 节 中 ， 我 们 将 
ACIDA TR RPE BR R fh BAL TRS. BR TUX PAR ZS, RABE 
FEER OB BK h iy Ce ER AE RL (9.7) RASS — PH EY BBM on IK Bt 
规则 。 
Pd BSR yn) MOI ARM BI, REE FRB SOR. 特别 
地 ， 它 应 从 初始 值 no TEAR, REBER 增加 而 逐渐 下 降 。 这 个 要 求 可 以 通过 选择 gln) 
RPE Ua TIA, ZEAN AY 
nin} = noexp| — z] e vet Lo (9.14) 


其 中 , o tt SOM 算法 的 另 一 个 时 间 常 数 . BEE E96) FCG. 14) BR AUS ee on EE HI 
学 习 率 参数 分 别 以 指数 衰减 的 公式 可 能 不 是 最 优 的 ， 但 它们 对 于 以 自 组 织 方 式 构 成 特征 映射 
PERH. 


Fig FEAT PT TAR: 排序 和 收敛 


fice BTA HY) Be fe EPR AY, MSCS OCR ea RAF hf. SOM 算法 怎样 逐步 导致 
一 个 从 输入 空间 抽取 的 激活 模式 的 有 组 织 表示 ， 这 是 令 入 惊奇 的 。 我 们 可 以 把 根据 式 (9.13) 
计算 的 网 络 权 值 的 自 适 应 分 解 为 两 个 阶段 : 排序 或 自 组 织 阶 段 及 其 后 的 收 伍 阶 段 。 月 适应 过 
得 的 这 了 网 个 阶段 摘 述 如 下 {Kohonen 1982, 1997a): 
L. 自 组 织 或 排序 阶段 。 在 自 适 应 过 程 的 第 一 阶 段 形成 权 值 向 基 的 护 扑 排序 。 这 个 排序 
阶段 可 能 需要 SOM 算法 的 1000 次 送 代 ， 也 许 会 更 多 。 要 仔细 考虑 学 习 率 参数 和 邻 域 国 数 的 
选择 : 
© FAIRER 外 站 者 好 但 应 接近 0.1; 然后 连 渐 减少 ， 但 应 保持 在 0.01 以 上 。 Bee 
求 的 值 可 以 在 公式 (9.14) 中 选择 m =0.1， = 1000 得 到 满足 。 

+ Siow 有 (nn) 的 初始 化 应 包括 以 获胜 神经 元 i 为 中 心 的 几乎 所 有 神经 元 ， 然 后 随 
时 条 慢 慢 收缩 。 区 其 ， 排 序 阶段 可 能 需要 SOM 算法 的 1000 we RS, ARH 
一 些 神 经 元 或 获胜 神经 泡 本 身 人 允许 各 ,Cn) 减 少 到 很 小 的 值 。 假 定 对 离散 映射 使 用 神 
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S275 — HERS, WWE BD AT ae SR PR BARA oo) F TARRE, FEHR 
设 定式 (9.6) 的 时 间 请 数 ct, = 1000/loga, 。 

2 收 吾 阶段 ， 自 适应 过 程 的 第 二 阶段 需要 微调 特征 映射 从 而 提供 和 输 和 人 空间 的 准确 统计 
量 。 和 本 为 一 般 性 规则 ， 组 成 疏 敏 阶段 的 选 代 次 数 至 少 是 网 络 中 神经 元 数目 的 500 倍 。 这 样 收 
敏 阶段 可 能 进行 几 千 次 以 至 上 万 次 的 迭代 : 

* 对 于 好 的 统计 精度 ， 在 收 个 阶段 学 习 合 数 gl Uv AR ERD we E, A 0.01 数 

RA. AEH, KIFE ELE, 省 则 ， 网 络 会 隐 人 到 亚 稳 定 状态 。 亚 稳定 状 
$ (metastable state) 属 于 有 拓扑 砚 隐 的 特征 正 射 什 构 。 陈 19.44) 的 指数 巷 减 保证 不 可 
能 进入 亚 稳 定 状态 。 

© SPRK h ,四 应 该 仅 包 括 获胜 神经 无 的 最 近邻 域 ， 最 终 减 到 一 个 或 零 个 邻 域 神 经 

9.4 SOM 算 法 小 结 


Kohonen 的 SOM 算法 的 本 广 是 它 用 一 个 博 单 的 几何 计算 代 冬 类 Hebb 规则 的 复 荣 性 证 利 
侧 问 相互 必用。 算法 的 主要 构成 /参数 有 : 

© 根据 一 定 概率 分 布 产 生 激 活 模 此 的 连 疆 输 人 年间 . 

© 以 神经 元 的 网 格 形 式 表 示 的 网 络 拓扑 ， 它 定居 一 个 离散 竹 出 空间 . 

。 在 获胜 神经 元 放 z) 周 围 定义 随时 间 杰 化 的 邻 域 丽 数 Ay a Cn) 

© 学 习 率 参数 nln HAREE p, ASAT Ie] a Geo, (AKPR AS 
对 于 邻 域 图 数 和 学 习 率 参数 ， 在 排序 阶段 ( 即 开始 的 天 药 1000 TAT Fe ar a AA (9.7) 
和 (9.14)。 次 了 好 的 统计 精度 ， 在 收 化 阶段 n(n) 在 相当 长 的 时 间 内 应 该 保 皖 一 个 较 小 值 
(0.01 RE), — RAIL TP IKIAR. MTR, AURA, TALE A EEEH 
经 元 的 最 近 的 领域 ， FEA ee a BY — PB SB a HS 

TE 88 HS BE AP ERR 取样 ， 相 似 性 此 配 ， 更 新 。 重 复 这 二 个 步 
又 百 到 宛 成 特征 瑞 射 的 形成 。 算 法 小 续 如 下 : 

L. 初始 化 。 对 初始 权 值 向 量 w (0) 选 择 随机 值 。 这 里 惟一 的 限制 是 对 j= 1,2,…,1， 
w,(0) 互 不 相同 ,其 中 ! 是 网 格 中 神经 元 的 数 且 。 可 能 希望 保持 较 小 的 权 值 。 

另 一 种 算法 初始 化 方法 是 从 输入 问 景 1x, i 的 可 用 集 里 随机 选择 权 值 向 量 iw (0) iaae 

2, 取样 。 以 一 定 概 率 从 输入 空间 取样 本 x; 向 量 表示 应 用 于 网 格 的 激活 模式 ,加 量 x 
HERST ma 

3. AHALE ee, CEE n 使 用 最 小 Euclid 距离 准则 寻找 最 匹配 (获胜) 的 神经 元 ix): 

ifx) = arg min | x(n} - wW, | op =] Lr 
4.23, WMAP aon 
wint l) = wen) + inih awian) - Wn)) 

调整 所 有 神经 元 的 权 值 向 量 .， 其 中 a ne) EU BBR h wn RR ae iO A 
Shik omar: ON SRB Re SR. yA k ny (ESAT Pee BIEN, 

5. 继续 。 继 续 步 又 2 FAL REI BO A A Et AI. 
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9.5 特征 跨 射 的 性 质 


-H SOM 算法 收 人 训 ,中 算 法 计算 的 特征 映射 好 示 输 人 人 襟 则 的 章 要 统计 特性 。 

Fp hg Oe Bon SE le) os aN CES), ERF a xC HRM RRR EM, Sol 
ZN Ewa Aa he, Ah HE AMA PEAR REP. COR 
MER AA HE Be SPEAR ee, ERT A ZS Be Ef elt, Bea A 

D:X — of (9,15) [454 

忒 9.151H 看 成 式 49.3) 的 抽象 ， 式 人 9.3) 让 习 为 啊 应 输入 癌 量 x 而 产生 的 获胜 神经 元 x) 
位 壮 ， 何 刘 ， 在 神经 生物 学 中 答 人 空间 史 可 以 表示 密布 于 整个 仁 表 面 的 体感 觉 接受 着 的 党 标 
集 、 相 应 地 ， 输 出 空间 四 表示 位 于 限制 体感 觉 接 受 器 的 入 脑 变 屋 中 的 昼 经 元 集 。 

bese fa A [ou] BE x, SOM 算法 首先 根据 Ss 
特征 映射 确定 在 输出 空间 总 中 的 最 佳 还 / 
配 或 获胜 神经 元 。 神 经 元 i(x) 的 突 触 权 值 
可 量 w, 可 以 视 为 神经 元 指 问 输 入 空间 有 的 
指针 ， 邮 向 量 w 的 突 触 元 素 可 以 视 为 神 jimmyo/ 
oi 投影 到 输入 空间 的 图 像 坐标 。 这 疯 / 
个 操作 在 图 9-4 PH. TERI © FAR | } 
些 重要 性 质 : 2 a/ 

性 质 1 输入 空间 的 近似 ”由 输出 空 f | 3 
问 4 的 突 触 权 值 向 量 !w;| 的 集合 表示 的 符 。/ | / \ 
ERA 中 对 输入 空间 提供 一 个 好 的 近 [|  。 F | aia 
似 。 | J 

SOM 算 法 的 基本 目标 是 通过 寻找 原型 \ Pi 
w, 马 名 的 一 个 较 小 的 集合 存储 输入 丫 量 Se 
x 安 灾 的 一 个 大 集合 ， 从 而 对 原始 输入 空间 
提供 一 个 好 的 近似 。 刚 才 描 述 的 思想 的 
理论 HE i da H T Oe) E Et te ( vector 
quantization theory), 它 的 动机 是 维 数 的 前 
并 或 者 是 数据 的 压缩 (Cersho and Gray, 
1992 )。 因 此 给 出 这 个 理论 的 简要 讨论 是 

考虑 图 9-5， 其 中 cl(x) 作 为 输入 向 量 
x 的 编码 器 而 te) 作为 cx PRBS. [ol 
量 从 满足 固有 概率 密度 隐 数 f(x) 的 训 
练 样本 (好 输入 空间 习 ) 中 随机 选择 。 通 过 
变化 函数 (DA x te) 决定 最 优 编码 - 解码 方案 使 得 极 小 化 由 


D = sl. dxf (x)d(x,x’) (9.16) 


es PL ee H 
es (il sl 


Ss 过 ce @ ees 6 
se 88888 oO 





i] = pee eae dei 
| Ye hs ae — Reto ae te A 
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定义 的 期 望 拓 真 ， 其 中 引 作 因子 1 这 是 为 了 表达 让 使，d(x,xX) 是 失真 (distortion) 度 量 ， 积 分 
在 假定 维 数 为 m 的 整个 输入 空间 史上 进行 。 失 真 度 虽 d(x，x ) 的 一 个 常用 选择 居 输 入 上 问 量 x 
和 重建 问 量 BY Euclid PERS RAE Uy; BI 


dix,x) = |x-x l? = (x—-x)'{x-x'} (9.17) 

这 样 我 们 可 把 起 (9.16) 草 写 为 
D = | dxf,(x) lx- x |? (9,18) 
WHERE D 最 小 化 的 必 有 要 条 件 人 在 广义 Lloyd 算法 中 (Gersho and Gray, 1992), AERA H 


的 ) : 

条 件 1. ERARE xx， 选择 码 字 c= efz) 使 其 最 小 全 平 方 误差 失真 ‖ -x (ce) | 2 

条 件 2. 568 Fc. RAS x =x (CHEAT 1 的 输 大 向 量 x 的 中 心 。 

条 件 | 称 为 最 近邻 编码 规则 。 条 件 | 和 2 a 
意味 着 平均 失真 D 关于 编码 器 ec(x) 和 解码 器 
X(ORP AW PILEREH. 为 了 实现 向 景 量 
i, JM Loyd 算法 以 集中 方式 运行 。 基 本 
上 上 ， 算 法 包含 交替 按照 条 件 ] 优化 编码 器 cfx) 
和 按照 条 件 2 优化 解 础 器 x (ce), ABA 
AH DD 达到 一 个 最 小 。 为 了 克服 局 部 最 小 问题 ， 
9 能 需要 议 不 同 初 值 运行 广 闵 Lloyd BREA T 
次 。 

TX Lloyd 算法 和 SOM 算法 紧密 相关 ， 
如 Luttrell( 1989b) 所 未 。 可 以 通过 考虑 图 9-6 9-6 RFS Shadi ais - 解码 名 模型 
所 示 的 系统 描述 这 种 关系 的 找 式 ， 其 中 在 编码 髓 ez) 之 后 我 们 引信 了 独立 于 数据 的 噪声 
ILE vo RE "附加 在 编码 怖 和 解码 此 之 间 的 虚构 的 “通信 信道 "上 ， 它 的 目的 是 说 明 输 出 
码 守 etx) 可 能 内 真 的 可 能 性 ,在 赂 9-6 所 示 模 型 的 基础 上 ， 可 以 考虑 期 望 失 真 的 一 种 修 
正 形式 





Di = 5| axA(o| dra(v) || x - x C(x) + v) II? (9.19) 


akv t 


其 中 AMERRE r HRR EA pdf), SAPS ARAL PRY A BERM, 

根据 上 X Lloyd 算法 描述 的 策略 ， 对 图 9-6 所 示 的 模型 可 考虑 两 个 不 同 的 优化 ， 一 个 属 
于 编码 知 而 男 一 个 属于 解码 絮 。 为 了 找到 给 定 x 的 最 优 编码 器 ， 我 们 需 些 期望 失真 度量 万 
对 编码 和 器 量 < 的 偏 导 数 。 利 用 (9.19)， 可 得 


dD | | d E 
AEO deny) six — x CoH (9.20) 


为 了 找到 给 定 c 的 最 优 解 码 冀 ， 我 们 需要 期 户 失 真 度量 D 对 解码 向 量 x tc) 的 偏 导 数 。 利 用 


(9.19), H4 


元 一 -| dxfy(x)rle -— e(x)) Cx — x'{e)} (9.21) 


AU, FETA 9.20) F921), LAR RR X Lloyd 算法 的 条 件 1 和 条 件 2 ATE TF 
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(Luttrell, 1989b): 
FiF 1. ARMA St X， 选 择 码 字 c= ec(%) 使 其 最 小 化 失 上 其 度量 


Ds iz E || x — x (e(x) + v) II? (9.22) 
条 件 UL. 给 定 码 字 e, ARENE x (e) 使 其 满足 条 件 


| dxfy(x)ale — e(x))x 
o (9,23) 





xic) = 











| dxfy(xdale - e(x)) 


设置 式 149.21) 中 的 人 山 寻 数 aDAB {ce) 为 0， 然 后 解 出 {ce) 可 得 式 (9.23)。 

图 9-5 描述 的 模型 可 作为 图 9-6 描述 的 横 型 的 特殊 情形 。 上 具体 地 ， 如 果 设 置 躁 声 py 的 概 
ERLAR x(y) 等 于 Dirac delta 图 数 S), Ai I ARE 开 分 别 归结 为 广义 Lloyd 算法 的 条 
fF 1 和 条件 2。 

为 了 简化 条 件 I， 假 定 xf Ay 的 站 滑 函 数 。 可 以 证 有 明 式 (9.22) 定 义 的 失真 度量 D, 的 
二 阶 近 似 包 含 鸯 项 (Lattrell ,1989b ) : 

* FRA BIT, AP AREEE | x-x(e) ||? EX. 

© BRAR (Cv) SAY E E (curvature ) Ml 
假设 曲率 项 小 ， 对 于 图 9-6 AR RE 工 可 以 近似 为 图 9-5 的 无 噪声 模型 的 条 件 1, DORE 
使 条 件 1 变 成 以 前 的 最 近邻 编码 规则 ， 


至 于 条 件 可 以 利用 随机 下 降 学 习 实 现 它 。 具 体 地 ， 用 因子 | dong (x) 从 输入 空间 &% 


随机 选择 输入 向 量 x, 并 日 更 新 重 构 向 量 x OA F (Luttrell, 1989b ) ， 
Xa C KC) + yale — elx) lx- x ye) | (9.24) 
FP pA A Be, cx) ARE 1 的 最 近邻 编码 近似 。 山 新式 (9.24) 由 检查 式 (9.21) 的 偏 
导数 可 得 。 这 个 更 新 应 用 于 所 有 的 e， 对 此 我 们 有 
me —¢(x}) > 0 (9.25) 
可 以 认为 式 (9.24) 描 述 的 梯度 下 降 过 程 为 式 (9.19) 的 失真 度量 D, 的 一 种 最 小 化 方法 。 也 就 
是 ， 式 (9.23) 和 (9.24) 本 质 是 同类 型 的 ， 区 划 在 于 式 (9.23 ) 为 托 处 理 方式 的 而 (9.24) 为 连续 
的 方式 ( 即 经 过 流 的 方式 ). 
更 新 式 (9.24) 等 同 于 式 {9.13) 的 (连续 )SOM 算法 ， 记 住 在 表 9-1 中 所 列 的 对 应 关系 。 因 
此 ， 可 以 说 用 于 向 量 量化 的 广义 Lloyd 算法 为 具有 10 邻 域 大 小 的 SOM 算法 的 批 处 理 训练 模 
式 ; ATO WM, xO) = 1 注意， 为 了 从 SOM 算法 的 批 处 再 方式 得 到 广义 Lloyd 算法 我 们 无 
需 作 尾 何 近似 ， 因 为 当 邻 域 为 0 宽度 时 曲率 项 (和 所 有 高 阶 项 ) 不 作 任何 贡献 。 


291 在 SOM 算 法 和 图 9-6 的 模型 之 间 的 对 应 


图 9-6 的 编码 - 解码 模型 SOM 算法 
i ae cl x} He te Ac ee iix) 
EHHE x(c) 2 MR AM EL et w, 
AEREA ne- elx) TBA PRR h 

下 面 络 出 讨论 需 往 意 的 重要 之 处 : 


* SOM 算法 为 同 量 量化 算法 ， 它 提供 输入 空间 多 的 良好 近似 。 这 个 观点 提供 导出 SOM 
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算法 的 男 一 种 途径 ， 如 式 (9.24) 的 示例 。 
© FU PMR. SOM BE HAYS BERS 疡 ,有 一 个 概 举 密度 丽 数 的 形式 。 在 Luttrell 
(1991a)， 考 虑 对 图 9-6 Aa PRS 向 百 是 合适 的 零 均 值 吉 斯 模型 。 央 此 我 们 对 
AAR OSS RRR RAT 个 理论 依据 。 
用 求 和 作为 对 式 (9.23) 右 痛 的 分 子 和 分 壬 的 积分 的 近似 ， 批 处 理 SOM# 仅仅 是 式 (9.23) 的 重 
Tjo EMT SOM 算法 的 这 种 形式 中 ， 和 输入 横 式 呈 开 给 网络 的 顺序 对 特征 映射 的 最 终 形式 没 
AWA, HAm EWE., ERIA TE AAR R R 
性 质 2 拓扑 排序 通过 SOM Aiki Ree tema O AAA, ARA A Y ae 
经 元 的 空间 位 置 对 应 于 输入 模式 的 特定 区 域 或 特征 。 
拓扑 排序 的 特性 ”是 虽 新 公式 (9.13) 的 直接 结果 ， 它 使 栈 胜 神经 元 i{x) 的 权 值 向 量 w, 
AA pE x。 它 国 样 对 中 获胜 神 经 元 i{x) 近 邻 的 神经 元 j BS FS A (ed Btw, 的 移动 有 
作用 。 岗 此 我 们 下 以 将 特征 映射 更 看 成 一 个 众 性 网 或 虚拟 网 ， 它 有 在 输出 空间 吕 中 描述 药 一 
维 或 两 维 的 网 格 ， 并 旦 它 的 节点 具有 权 值 作为 输入 空间 镀 中 的 坐标 (Ritter,1995)。 因 此 算法 
和 的 总 的 月 标 可 以 陈述 如 下 : 
指针 或 原型 以 究 触 权 秆 向量 w, I AIA IDL, EER DAR 
式 提 人 殿 极 据 某 个 准则 而 言 表征 输入 向 量 xC RM SSH EM TIRE. 


特征 映射 中 通 常 在 输入 空间 诗 中 显示 ， 特 别 地 ， 所 有 的 指针 ( 即 突 狸 权 向 最 ) 显 示 为 点 ， 相 邻 
十 经 元 的 指针 按照 网 格 的 拓扑 用 线 相连 。 内 此 ， 使 用 连 线 将 山 个 指针 w, w 连 起 来 ， 表 示 
相 庙 神经 元 i 和 ji 在 网 格 中 是 相 邻 神经 元 . 

性 质 3 密度 匹配 ” 特 径 映射 中 反映 输入 分 布 在 统计 上 的 变化 :; 在 输入 空间 儿 中 样本 向 
FaU SH RBEPR HRMS ke ae PRR, Am LAP PHAGE x IR 
概率 抽取 的 区 域 有 更 好 的 分 辩 率 ，。 

F fax An EELA E x PEHE pt PORE EE ARO. FE SS pdf 在 整个 输入 
空间 上 的 积分 必须 等 于 1: 


| Ads gi 


& mx) dems Ay ak X ( magnification) 因子 ， 定义 为 输入 空间 多 的 小 体积 dx 中 的 昼 经 元 个 数 。 
放 太 因子 在 整个 输 和 人 空间 光 的 积分 一 定 等 于 例 络 中 的 神经 元 总 数 !， 即 

| wade x 3 (9.26) 
对 于 准确 匹配 输入 密度 的 SOM 算法 ， 我 们 要 求 (Amarn 1980) 

m(X) œ f(x) (9,27) 


这 个 性 原意 味 者 ， 如 来 输入 空间 中 的 一 个 特殊 区 域 包 含 经 常 发 生 的 刺激 ， 那 么 与 刺激 出 现 较 
少 的 竹 人 衬 间 的 区 城 相 比 ， 它 将 用 特 皇 卫 射 中 更 天 的 区 域 表 示 。 

一 般 地 ， 在 二 维特 征 映 射 中 放大 因子 m(x) 不 能 表示 为 输入 向 量 x 的 概率 密度 两 数 反 (x) 
的 一 个 简单 男 数 。 只 有 在 一 维特 征 映 射 时 才 呆 能 导出 这 样 的 关系 。 对 这 种 特殊 情况 ， 我 们 发 
现 洒 车 至 的 推测 (Kohonen,1982) 相 到 ， 它 的 放大 因 了 于 m(x) 并 不 与 (2) 成 比例 。 基 于 采用 的 
编 但 方法， 在 文献 中 报告 了 两 个 不 园 的 结果 ， 
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EPIRA nv SRR. OP aS E A E 
mIX) œ fx (X) | (9,28) 
这 与 标准 的 回 旺 量化 器 得 旬 的 结果 相同 {Luttrell, 19914) 。 

2. RU AR A, UE SOM 算法 的 标准 形式 中 ， 它 出 现在 忽略 曲率 项 的 时 候 。 这 个 编 
A ET EHHE (Ritter, 1991) 

m(x) o fx (x) (9.29) [a60] 
FRA BUI PF: RE AE TL A RPE F A ERER ERER A RRR RI 
FRR SE FA st 9.27) FRR A EY 
失真 形式 。 

作为 一 个 一 般 规 则 (被 计算 机 仿真 确 
A), E SOM 算法 计算 的 特征 映射 往往 
超生 于 过 高 表示 低 输 入 密度 区 域 和 过 低 
表示 高 输入 密度 区 域 。 措 各 话说，SOM 
算法 不 能 为 输入 数据 固有 的 概 亨 分 布 提 
供 可 信赖 的 表示 。 

性 质 4 ”特征 选择 在 具有 非 线 性 
分 布 的 输入 空间 中 给 定数 据 ， 自 组 部 映 
射 能 够 为 逼近 国有 分 布 选 择 一 组 最 好 的 
特征 。 

这 个 性 质 是 性 质 1 至 性 质 3 的 自然 
结论 。 它 使 人 和 柱 起 前 一 章 讨论 的 主 分 晶 
分 析 的 思想 ,但 是 如 图 9-7 所 示 ， 它 们 
有 一 个 重要 的 区 别 。 在 图 9-7a 中 展示 被 
加 性 噪声 损坏 的 线性 输入 - 输出 映射 导 
出 的 零 均 值 数 据点 的 二 维 分 布 。 这 种 情 
(LP, £44 LBS: EA 
我 们 ， 在 图 9-7a 中 的 “线性 ”分布 的 最 好 
描述 是 定义 成 通过 原点 县 平行 于 数据 相 
关 和 矩阵 的 最 大 特征 值 对 应 的 特征 向 量 平 
‘TH Bee BI AEA“ OR"). ERE 
考虑 图 9-7b 所 描述 的 情况 ， 这 是 受 零 均 





值 加 性 噪声 损坏 的 非 线 性 输入 - 输出 映 b) 
HBAR, TERK FS PR MES) EA 

析 计 算 的 直线 逼近 不 可 能 提供 可 接受 的 0 
数据 描述 。 为 一 方面 ， 利 用 建立 在 一 维 b) 非 线性 输入 - 输出 映射 产生 的 二 维 分 布 


神经 元 网 格 的 自 组 织 上 映射 由 于 它 的 拓扑 
有 序 性 质 能 够 克服 这 个 通 近 问题 。 后 一 个 逼近 在 图 9-7b 中 说 明 。 
精确 地 说 ， 我 们 可 以 说 自 组 织 特征 映射 提供 所 谓 主 曲线 i 车 (principal curve) 2È È. W H 
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(principal surface) BY $ BOM VE (Hastie and Stuetzle,1989)， 因 此 可 以 看 成 是 主 分 量 分 析 的 非 线 性 
推广 。 


9.6 计算 机 仿真 


由 两 维 分 布 驱 动 胸 两 维 网 格 


我 们 使 用 计算 机 仿 趴 来 说 明 SOM 算法 的 行为 ， 通过 研究 100 个 神经 元 组 成 的 网 络 ， 排 
到 成 10 行 积 10 列 的 两 维 网 格 。 网 络 用 二 维 输 入 问 量 训练， 它 的 分 呈 * 和 x, 均匀 分 布 在 
Kii -iex c +l); C-lea ec +l ko 为 了 初始 化 网 络 ， 突 触 权 值 从 一 个 随机 集合 机 
图 9-8 显示 训练 网 络 学 习 表 示 输 入 分 布 的 三 个 阶段 。 图 9-8a 显示 用 来 训练 特征 映射 的 
L461| 数据 的 均 补 分 布 。 图 9-8b 品 示 随机 抽取 的 突 触 权 值 的 初始 值 ， 图 9- 8c 和 图 9-80 分 别 表示 
了 在 排序 阶段 和 收 钱 阶段 完成 后 突 触 权 值 向 量 的 值 ， 画 出 输入 空间 中 点 的 图 形 。 在 图 9-8 中 

将 网 络 中 相 邻 神经 元 用 线 连 起 来 (通过 行 和 列 )。 








图 9-8 
a) 输 入 数据 分 布 bb) 二 维 网 格 初 巡 博 涡 。 。) 排 序 阶 段 之 后 网 覆 情 况 。 届 收 误 阶段 之 后 网 贴 情 况 


图 9-8 所 示 的 续 果 展现 表征 SOM BES Ie RES RAR. Fl -8e 显 
1462| 示 排 序 阶段 ， 映 射 展开 形成 的 网 格 。 在 这 个 阶段 之 后 神经 元 映射 为 正确 的 排序 。 在 收 合 阶 段 
映射 散 开 充满 输入 空间 。 在 第 二 阶段 结束 后 ， 如 图 9-8d 所 示 ， 上 映射 中 神经 元 的 统计 分 布 接 
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近 输 入 和 问 量 的 分 布 ， 除 了 一 些 边 绿 效 果 之 外 。 上 比较 图 9-8d 中 特征 有 映射 的 最 终 状 态 和 图 9-8a 
的 输 和 人均 名 分 布 ， 我 们 看 出 政 钱 阶段 映射 的 调整 抓 住 了 可 在 输入 分 布 中 看 到 的 局 部 不 规则 
性 。 

SOM 算法 的 拓扑 排序 性 质 在 图 9-8d 得 到 很 好 说 骨 。 尤 其 疯 察 到 算法 (在 收复 之 后 ) 抓 住 
了 输入 中 均匀 分 布 的 固有 拓扑 。 图 9-8 所 示 的 主 算 机 仿真 的 输 和 人 空间 多 和 输出 空间 站 都 是 两 
HE HY o 


FA PS 2 St Fh BR a) a — Be a 


FR BS AHAA 28 [Ee ER A A E 2S Bo ER. PS PACA, RPS 
射 中 党 带 能 形成 输 人 分 布 的 拓扑 表示 。 图 9-9 显示 在 特征 映射 演化 过 程 中 的 三 个 不 同 的 阶 
段 ， 它 的 初始 化 如 图 9-9b 所 示 ， 从 抑 形 中 抽取 数据 进行 训练 如 图 9-9a 所 示 ， 但 是 ， 这 次 计 
算是 在 100 个 神经 元 的 一 维 网 格 中 进行 的 。 图 9- ge 和 图 9-9d 分 别 表示 排序 和 和 收 敏 之 后 的 特 
征 上 映射 。 这 里 我 们 看 到 为 了 尽 可 能 紧密 地 填充 矩形 从 而 提供 二 维和 输 和 人 空间 多 的 固有 拓扑 的 良 
好 近似 ， 用 算法 计算 的 特征 映射 是 非常 失真 的 。 在 图 9-9d 所 示 的 近似 曲线 类 于 Peano HA 
(Peano curve). 以 图 9-9 的 符 征 上 映射 为 例 的 这 种 运 昔 被 称 为 维 数 戎 i, ( dimensionality reduction) , 
FL ay A T AA AHERE ARIRE Ss [a] SE EK 





D 0.5 ] -1 -0.5 F 0.5 ] 





图 9-9 
a OERA RGR DE b) 一 维 网 格 初 始 情 况 。e) 排 序 阶段 之 后 的 网 格 情况 ”由 收 皱 阶段 之 后 的 网 格 情 况 
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仿真 的 参数 设置 


|464| 图 9- 10 ERA FERRAR RR h, (MRY RER wtn) 随 时 间 ( 即 回合 次 
数 ) 的 变化 。 图 9-102 Bras BY SB ke RY cf( nm) 开始 时 初始 值 m = 18， 然 后 在 排序 阶段 的 
1000 次 兴 代 中 得 减 到 大 约 为 1。 在 同一 阶段 ， 学 习 率 参数 yn TRS RA no =0.1， 然 后 
FRE 0.037. E 9- 19e 表示 位 于 一 维 网 格 的 中 点 的 获胜 神经 元 周围 神经 元 的 初始 高 斯 分 布 。 
9- 10d 显 不 企 排 序 阶段 结 来 后 邻 域 明 数 的 形状 。 在 收 化 阶 段 ， 学 习 率 参数 在 5000 IE 
中 从 0.037 线性 下 降 到 0.001。 蛮 同一 阶段 ， 邻 域 函 数 基本 上 减少 到 人 0。 


20 


= 
= 10 
0 
0 100 200 300 400 500 600 700 R00 900 1000 
a) 
0.1 
E 9.05 
= 
0 
0 100 200 300 400 500 600 700 800 900 1000 
D) 
! 
= 05 
a 
0 
0 10 20 30 40 50 60 70 80 K) 100 
c) 
1 
= 05 
= 
0 
0 10 20 30 40 50 50 70 80 X) 100 
到 
d) 
图 9-10 


JERBRER x( mn) 呈 指 数 误 减 ” 匡 学 习 率 参数 y( REM ”高 斯 邻 域 函 数 的 初始 形状 
dj 排序 阶段 结束 后 ( 即 收 笋 阶段 开始 ) 邻 域 函数 的 形状 
除了 邻 域 函数 是 二 维 的 外 ， 图 9-& 涉及 的 二 维 网 格 的 计算 机 仿真 在 排序 阶段 和 收 化 阶段 
的 说 明 与 一 维 网 格 的 情况 相似 。 参 数 afa) 从 初始 值 mw =3 开 始 ， 然 后 在 1000 步 举 代 中 减少 
1465] 到 0.75。 图 9-11 显示 在 10x 10 的 二 维 神经 元 网 格 中 获胜 神经 元 在 点 (7, 8) 和 am =3 时 二 维 
高 斯 邻 域 函 数 A, ,的 初始 值 。 
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图 -11 在 10x 10 H HATE a a (7,8) 
Aub BA) Ze ey Ar SB ak, a A A A TA 


9.7 年 习 向 量 量化 


在 前 面 9.6 节 讨 论 的 向 量 量 化 {vector 
quantization) ， 是 利用 输入 向 量 的 固有 结构 进行 数据 
压缩 的 技术 (Cersho and Gray, 1992). Hiki, 输入 空 
司 科 分 成 一 些 不 同 区 域 ， 并 且 对 每 一 个 区 域 定义 一 
个 重建 疝 量 。 当 一 个 新 的 输入 向 量 提供 给 量化 器 
时 ， 首 次 确定 回 量 所 在 的 区 域 并 且 利 用 该 区 域 的 重 
Al BRA lest. RE. MARS oe aS 
ee TCR aa A el eR FA a, ER RN 
OTA] SE BATE AF a ae ei LAMA A. PREM 
重 构 向 量 集 锌 称 必 量化 器 的 码 书 (code book), TIE 
的 成 员 被 称 为 码 字 (code word). 

一 个 有 最 小 编码 失真 的 向 量 量化 髓 被 称 必 
Voronoi 单元 或 最 近 郎 域 量 化 器 ， 因 为 关于 输入 罕 提 
点 集 的 Voronoi 单元 对 应 于 基于 Euclid 度量 按 最 近邻 图 9-12 包含 4 个 举 元 的 Voronoi 图 
规则 对 该 空间 的 章 分 (Gersho and Gray，1992)。 图 (经 TERE 许可 , 改 自 R.M. Gray,1984) 
12 显示 一 个 输 人 空间 他 成 四 个 Voronoi 单元 及 它们 相关 的 Voronoi fal ft (BI At (cr) Bt A A o 
每 个 Yoronoi 单元 包含 输入 空间 中 的 那些 点 ， 它 们 在 所 有 的 点 中 最 接近 Voronoi HR. 

SOM 算法 提供 一 个 无 监督 方式 下 计算 Voon 向 量 的 允 近 方法 ， 其 逼近 通过 特征 映射 中 
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AHS 7 52 BAY (Be) ee Es 这 仅仅 是 在 9.6 节 中 讨论 的 SOM 算法 的 性 质 1 的 重新 陈述 。 如 在 
图 9-13 所 村 急 的 一 样 ， 特 征 晓 射 的 计算 可 过 视 为 目 适 应 解决 模式 分 类 问题 两 步 中 的 第 一 步 。 
See heath, CHE Ra ER YL 





图 9-13 AH A RS SAR SS AS ee ee 1 a AY eh PE 


学 习 向 量 量化 器 (jeaming vector quantization, LVO ) 引 是 监督 学 习 技 巧 ， 它 使 用 分 类 消息 来 
轻微 移动 Vonn 向 量 ， 以 便 提 高 分 类 胡 的 决策 区 域 质 量 。 从 输入 空间 随机 抽取 一 个 输入 向 
mx, SRA at x 的 类 别 标号 和 Voronoi HE w 符合 ，Voronoi 向 量 w 向 输入 向 量 x 的 方 
mM PBs, MARR, Ale) et x HASHES Al Voronoi 向 量 w RFA, Voronoi 向 量 wig 
Fig A Jo) at x 的 方向 移动 。 

Bel w, 14. 表示 Voronoi Ja] BE, ix, ;表示 和 输 和 人 (观察 ) 向 量 集 。 候 定 输 人 向 量 儿 于 
Voronoi 向 量 ， 在 实际 中 这 是 典型 的 情况 。 学 习 向 量 量 化 {LVQ) 算 法 如 下 

(GMBA Voronoi HÈ w, 距离 输入 向 量 x, 最 近 。 令 %。 表 示 Voronoi HR w, 的 类 别 ，%。 


Fes In) Bt x, 的 类 别 标 导 。YVoronai 向 量 w, 调整 如 下 . 
” RARE, =G, M 


wo(2+1) = Wan) +a lx — w,(n)] (9.30) 
其 中 0O<oa <1 
” FAR, WRG, <G, , M 
w.(n + 1) = W (n) -a,l X- WN (9,31) 


(1 其 他 Voronoi 呵 量 不 作 调 整 。 

我 们 希望 学 了 系数 wm PERRI a 的 增加 而 递减 。 例 如 a, 初始 值 为 0.1 或 更 小 ， 然 
DHA n 线性 递减 。 在 通过 输 人 数据 几 访 之 后 ，VYorovoi 向 量 和 通常 收敛 并 且 训 练 完 成 。 然 而 ， 
如 条 应 用 方法 不 小 心 ， 可 能 会 通 到 困难 。 


9.8 计算 机 实验 : 自 适 应 模式 分 类 


在 模式 分 类 中 ， 第 一 步 和 最 重要 的 一 步 是 特征 选择 {抽取 )， 它 一 般 在 无 监督 方式 下 完 
成 。 第 一 步 的 目标 是 选择 小 的 合理 特征 集合 ， 在 其 中 ( 竺 分 类 的 ) 输 入 数据 的 本 质 信息 内 容 被 
集中 起 来 。 册 于 在 9.5 节 讨 论 的 自 组 织 贞 射 性 质 4， 它 适合 特征 选择 的 任务 ， 尤 共 是 当 输 入 
数据 由 非 线性 过 程 产 生 时 ， 

株 却 识别 的 第 二 步 是 实际 的 分 类 ， 从 输入 数据 选择 特征 赋予 每 个 类 。 尽 管 自 组 织 有 映 射 设 
计 用 来 充当 分 类 的 角色 ， 为 了 最 好 的 性 能 建议 对 分 类 的 第 二 步 结合 监督 学 习 程 序 运 行 。 自 组 
织 映射 和 监督 学 习 模 式 的 结合 构成 本 质 上 混合 的 自 适应 模式 分 类 的 基础 。 

这 种 模式 分 类 的 混合 方法 可 以 采取 不 同 的 形式 ， 取 决 于 监督 学 习 格 式 是 怎样 实现 的 。 一 
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Anti BE AS AS he A — Re eee i. RP ERA ROS 9-13 Ba Ae H id 
Iie ARE TK oP SE RE 

在 这 个 实验 里 我 们 再 次 讨论 标号 16, ) 和 标号 2( 8%, REA AE ot a A 
的 分 类 ， 在 第 4 章 里 首次 描述 时 它 涉及 用 友 向 传播 算法 训练 的 多 技 感 邯 莫 的 应 用 ， 迅 验 所 用 
数据 的 散 列 图 如 图 4- 13 所 示 。 

图 9- 14a WIKER SOM 算法 训练 后 5x5 神经 元 的 二 维特 征 上 映射 FERT Re, 
根据 对 从 输 人 分 布 中 抽取 的 测试 数据 的 响应 备 个 神经 抑 被 指定 为 一 个 类 或 吃 一 个 大 :图 
9- [4b 4 as RPGR TT AS EP TS RRL o 

图 9-14c 显示 利用 LVO 以 监督 方式 调整 后 的 修正 的 特征 映射 图 9-144d an SOM Al 
LVO 算法 联合 产后 的 决策 边界 。 比 较 这 两 个 图 以 及 它们 在 图 9- 14a 和 图 9-14b 对 应 部 分 ， 我 
们 从 量 的 方面 看 出 利用 LVO 所 获得 的 效益 ， 
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图 9- 14 
a} 标 定 后 的 自 组 织 映射 ”bb 部 分 a 的 特征 遇 射 所 建立 的 汰 第 这 蹇 
学 习 向 量 量化 后 标定 的 映射 “中 部 分 。 的 特征 映射 所 建立 的 决策 边界 

Se 9.2 给 出 特征 映射 自身 和 特征 映射 结合 学 习 向 量 量化 器 的 模式 分 类 性 能 的 小 结 。 其 中 
给 出 的 结果 为 10 次 狐 立 试验 所 得 的 结果 ， 每 次 试验 涉及 使 用 30 000 个 模式 作为 测试 数据 。 
在 每 次 试验 中 使 用 LVO 分 类 性 能 总 有 提高 。 特 征 映射 本 身 的 平均 分 类 性 能 为 79.61%., ME 
征 映 射 结 合 学 习 向 量 量化 器 的 平均 分 类 性 能 为 中.52% ， 这 表示 对 特征 映射 本 刁 有 0.91% 的 
提高 。 作 为 参考 框架 ， 我 们 回想 这 个 试验 的 最 优 Bayes 分 类 器 性 能 为 81 .51 锡 。 
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#292 对 用 5x5 网 格 的 二 锥 重 台 高 斯 分 布 的 计算 机 试验 分 类 性 能 1 有 分 比 ) 小 结 
Pete Ee PT HEA] Ja it 
试 W PBA ST G S 最 化 路 内 联结 全 
an a 79.05 0 
2 79,79 80.56 
3 794l 81.17 
4 70,38 79.84 
5 80,30 80.43 
6 79.55 80.36 
7 79.79 80. 86 
8 78,48 $0.2] 
9 80.00 £0.51 
10 £0.32 81.06 
Wey 79 61% 80.52% 
9.9 分 层 向 量 量 化 


企 9.6 节 月 组 织 特征 映射 的 性 质 ] 的 讨论 中 ， 我 们 指出 在 向 量 量化 方 商 它 与 广义 Loyd 
BAR ERA, 门 星 量化 是 有 损 (lossy) 数 据 压 缩 的 一 种 形式 ， 有 损 的 意思 足 指 一 些 包 含 在 输 
ARGS PMB TESA REA T . 数据 压缩 植 根 于 Shannon 信息 论 的 一 个 分 点 ， 称 为 
HR A (rate distortion) 理 论 {Cover and Thomas,1991)。 为 了 目前 处 理 的 分 证 调 星 攻 化 的 是 的. 
以 陈述 下 面 率 失真 理论 的 基本 结果 作为 开始 是 很 适合 的 (Gray ,1984) : 

通过 获得 同 量 编码 而 不 是 标量 编码 ， 总 是 能 够 取得 好 的 数据 压缩 性 能 ， 即 使 数据 源 是 无 
记忆 的 《例如 ， 筷 提供 一 系列 独立 随机 变 章 )， 或 者 数据 压 锌 系统 有 记忆 的 { 即 编码 器 的 动作 
依赖 于 编码 器 以 前 的 输入 或 输出 )- 


IX PSEA ERP OT fel Be IL PE ARIK 22 ESE PE BO SEM (Gersho and Gray, 1992), 

然而 ， 传 统 的 向 量 基 化 算法 要 求 大 量 的 计算 ， 这 妨 竹 了 它们 的 实际 使 用 ,向 明基 化 最 费 
时 的 部 分 其 编 础 操作 。 为 了 编码 过 程 ， 和 输 人 加 和 量 必须 与 每 一 个 在 三 书 中 的 码 字 向 量 作 比较 ， 
以 便 决定 哪 一 个 特别 的 码 宁 -产生 最 小 失真 度 。 例 如 对 于 码 书 包含 NW 个 码 身 量 ， 编 码 所 花 的 
THE ORE N 的 阶 ， 这 样 对 大 的 N EPER RS. TE Luttrell(1989a) 描 述 一 个 多 阶段 分 层 
(multistage hierarchical) 向 量 量化 器 ， 它 用 编码 速度 措 取 精度 。 这 个 模式 不 星 标 淮 的 码 书 的 树 
搜寻 ; 它 是 真正 新 的 。 儿 阶段 分 层 向 量 量化 器 试图 将 所 有 的 向 量 量 化 过 程 分 解 成 许多 子 操 
作 ， 每 个 子 操作 羽 要 求 少量 的 计算 。 理 想 芍 分 解 对 每 个 子 氛 作 简化 为 简单 的 查 表 。 通 过 巧妙 
地 使 用 SOM 算法 来 训练 量化 器 的 每 一 阶段 ， 淮 确 性 的 丢失 可 能 很 少 ( 低 到 几 分 之 一 分 员 
Cdecibel) ) ， 同 时 计算 速度 的 增益 可 能 很 大 。 

FEATHER that VQ, 和 YQ,， 其 中 YQ 将 它 的 输出 送 到 VO, (FARA. VO, 的 输 
出 是 应 用 于 VQ Af Ss SS, ERT EC eI F, vO AR oe Se 
弃 一 些 信 息 。 就 YQ, Ma, VO. 仅 有 的 作用 是 扭曲 YQ, 输出 的 信息 。 这 样 很 明显 对 VO, 的 
正确 的 训练 方法 是 SOM 算法 ， 它 说 明 VQ, 诱导 的 信号 失真 {Luttrell,1989a)。 为 了 使 用 广 六 
Lloyd 章法 来 训练 VQ: ， 我 们 仅 需 要 假定 VO, 的 输出 在 重建 之 前 没有 被 损坏 。 从 而 我 们 无 需 
S| ATR Be CE VQ, 的 输出 ) 及 相应 的 有 限 宽度 邻 域 函 数 。 
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我 们 可 以 推 | XANES OE ae AM PRE BEE ST A S 
输出 


面 阶段 导致 的 失真 并 有 量 为 它 建立 噪声 模型， 
为 这 样 做 ， 使 用 SOM 算法 训练 量化 器 的 所 
有 和 阶段， 除了 最 后 一 个 界 段 适宜 用 广 立 的 
Lloyd 算法 训练 。 

分 层 向 量 量化 过 税 是 多 阶段 向 量 基 化 
的 特例 (Luttrell ,1989a)。 作 为 - PP GIDE, Æ 
me Axi KRAS xs l xta 7 的 
量化 。 在 图 9- 15a 我 们 给 出 用 于 工 的 单 阶段 
器 量 量 化 器 。 另 外 ， 我们 可 以 使 用 如 图 
9- 15b 所 描绘 的 两 阶段 分 层 量 化 器 。 这 遇 个 
模式 的 重要 区 草 是 在 图 9 15a 的 量化 器 町 入 
维 数 为 4 而 在 图 9- 15b 中 它 是 2。 央 此 ， 图 
9-15b 的 量化 器 要 求 小 规模 的 查 用 表 ， 因 此 
比 图 9- 15a 的 量化 器 实现 简单 。 这 是 分 层 量 
Wee MILER SA. 

Luttrell( 1989a) 展示 多 阶段 分 层 向 量 量 











MAB 
ee at 
两 个 输入 的 
Ce © Ui 


$ = a = * $ 
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a} ny) 













[H 9-15 
2 具有 四 个 输入 的 单 阶段 癌 其 量化 器 
由 合用 两 个 输 信 的 两 阶段 分 层 向 量 刁 化 器 
(36) $.P.Lattrellt 1989a) British Crown HEZ) 


化 需 应 用 到 不 同 的 随机 时 间 席 列 的 性 能 ， 
RIERA RRS. FER 9-16 重新 产生 了 Luttrell 的 结果 ， 它 是 利用 一 阶 自 回归 (first-order 
autoregressive, AR) 模型 : 

a{n +1) = palin) + y(n) (9.32) 
ER, eR ee, HP pH AR 系数 ，v(m 为 独立 局 分 布 (idd) 的 高 斯 随机 变量 ， 
上 其 有 等 均值 和 单位 方差 。 因 此 我 们 可 以 证 明 *(z) 的 特征 如 下 : 








Elx(n}] = 0 (9,33) 
È, x(n) ] = ] {9,34} 
P 
E| xin + Dala) | 
yy =? kii 


因 些 p tH A] a BP EYP xin) RXRA, AT PPR R932) 5 oe th at fe] FARER, H 
x{0) 使 用 均值 为 零 和 方差 为 O ~ 六) 的 高 斯 随机 变量 ， 并 号 相关 系数 使 用 6 = 0.85, 

对 于 回 量 量化 使 用 尖 亿 于 图 乡 15b 中 的 二 分 树 一 样 具有 四 维 输入 空间 的 分 层 编 码 器 。 对 
于 AR 时 间 序 州 1xtn)1， 平 称 对 称 意味 着 仪 需 两 个 不 同 的 查 用 表 ( look-up table)。 每 张 表 的 大 
小 按 指 效 依 赖 于 输入 比特 数 ， 而 线性 依 束 于 输出 比特 数 。 在 训练 过程 中 ,第 要 大 量 比特 数 吕 
示 式 (9.24) 描 述 的 更 新 的 正确 计算 的 数 ， 这 样 在 如 练 期 间 不 使 用 查 用 表 。 众 是 一 旦 训练 完 
成 ， 比 特 数 可 降低 至 它们 的 正常 水 平 ， 并 且 按 要 求 填充 表 项 。 对 于 如 图 9-15b 显示 的 编码 
前 ， 每 个 输入 样本 用 4 比特 近似 。 对 解码 器 的 各 个 阶段 ， 使 用 NC = 17) 个 码 字 向 量 ， 这 样 从 
每 个 查 用 表 的 输出 比 和 性 数 也 近似 为 4。 因此 第 一 阶段 和 第 二 附和 毁 的 但 用 表 的 地 址 空间 的 大 小 
为 256( =2"“)， 这 意味 着 查 用 表 的 表示 所 需 存 储 要 求 是 适中 的 。 

图 9-16 显示 用 x(n) 作 为 输入 得 到 的 编码 - 解码 结果 。 图 9-16a 的 下 半 部 分 显示 两 阶段 
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fide PER AS FEAA Sa A LER Ae le h; 图 9-16a 的 上 半 部 分 表示 相应 的 用 
16 x 16 HERRIE E (co-occurrence SPREMHATT. 图 9-16b 表示 如 下 时 间 序 列 片段 : 

© 由 第 一 个 编码 阶段 计算 的 倘 了 向 量 . 

* 保持 其 他 变量 固 迭 ， 由 第 二 阶段 最 小 化 均值 平方 失真 计算 出 的 重 构 向 量 。 
图 9-16c 显示 512 个 样本 ， 包 括 原 始 时 间 序 列 ( 顶 如 曲线 ) 和 从 最 后 一 个 编码 器 阶段 的 输出 得 
20 tf By CRA); Æ 9-16: 的 水 平方 向 的 列 度 是 图 9-16b 的 一 半 。 最 后 ， 图 9-16b 表 
本 从 一 对 样本 {原始 时 间 序 列 样 本 和 它 的 相应 重 构 ) 产 生 的 共生 姑 阵 。 图 9-16d 中 的 带宽 指示 
BEERE EHRE, 

tif E 9-16: 的 波形 ， 看 出 重 构 对 原始 时 间 序 列 是 好 的 表示 ,除了 一 些 正 和 负 的 峰值 被 
HBR. ARGS Luttrell(1989a) 旭 整 化 后 的 均值 平方 失真 经 计算 为 0.15， 它 同 每 个 样本 用 一 比特 
的 单 阶段 4- 样本 块 缩 码 器 所 获得 的 8.8 分 见 几 乎 一 样 好 (0.5 分 由 的 损失 ) (Jayant and Noll, 
1984). 





Ale 


EFE] 阶段 2 


a) 





c) d} 


图 9-16 HFA E r e Si A S Er E ga EA R 
相关 系数 p=0.85( 摘 自 S.P. Luttrell( 1989a), British Crown 版 权 ) 


9.10 上下文 映射 


目 组 织 特征 映射 有 了 酚 种 明 灵 不 同 的 可 视 化 方法 。 在 一 种 可 视 化 方法 中 ， 特 征 配 射 被 视 为 
有 弹性 的 网 络 ， 此 时 向 量 权 值 被 视 为 对 应 神经 元 的 指针 ， 指 向 输入 空间 。 这 种 可 视 化 方法 特 
齐 适 用 于 显示 SOM 算法 的 拓扑 排序 属性 ， 如 9.6 节 给 出 的 计算 机 仿真 实验 结果 所 说 明 。 

在 第 二 种 可 视 化 方法 中 ， 对 两 维 网 格 { 表 示 网 络 的 输出 层 ) 的 神经 元 赋予 类 别 标 号 ， 它 取 
次 于 每 个 测试 模式 (以 前 未 见 过 ) 振 样 激活 日 组 织 网 络 中 的 特定 神经 元 。 作 为 仿真 第 二 阶段 的 
结 末 、 两 维 网 格 中 的 神经 元 被 剖 分 成 许多 相 千 区 域 ( coherent region)， 相 和 干 的 含义 是 神经 元 每 
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at A ETB EFT o Ae A — PE EG Riter and Kohonen, 1989). i& EEE Rn — 2b p> 
生 良 序 的 特征 映射 的 正确 条 件 成 立 . 

例如 ， 考 虑 表 ?83 中 给 出 的 数据 集合 ， 它 们 是 关于 许多 不 同 动物 的 。 表 的 每 一 列 是 对 动 
TOR AN RETIRE, Eee A 13 个 不 同 的 属性 的 出 现 ( = 1) 或 不 出 现 ( = 0), 一 些 属性 全 
好 "羽毛 "和 "两 条 脱 " 是 相关 的 ， 而 其 他 许多 属性 是 不 相关 的 ， 对 赤 头 给 提 的 每 个 动物 ， 忆 的 
局 性 代码 x, EA 13 MATERA. SORA KA x, 指定 ， 符 号 代码 的 组 成 必须 不 表 
达 动 物 的 低 何 信息 或 它们 之 则 已 知 的 相似 点 ， 例 如 当前 的 例子 ，x, 是 由 个 列 向 量 构 成 ， 
EW k TIGR, REJA k =1,2,-°,16, MP—-TAEA a; W PCERE O SA 
a 与 属性 代码 比较 而 言 决定 符号 代码 之 间 的 相关 影响 ， 为 了 确定 属性 代 伍 是 重要 的 一 个 ，a 
选择 为 0.2。 每 个 动物 的 输入 向 量 x 是 一 个 29 个 元 素 的 向 量 ， 表 示 属 性 代码 x, 和 符号 代码 


x, 的 联合 ， 表 示 为 
c= [K] ]+ [0 | 


最 后 ， 每 个 数据 向 量 都 被 归 一 化 为 单元 长 度 。 这 样 产生 的 数据 集 的 模式 被 呈现 给 10x10 的 
两 维 昼 经 元 网 格 ， 宰 经 元 的 权 值 按照 9.4 节 中 冰 述 的 SOM 算法 调整 。 训 练 连续 进行 2000 次 
过 代 ， 此 时 特征 映射 应 该 达到 一 个 稳定 状态 。 接 着 ， 由 一 个 动物 包含 的 符 导 代 而 x = [x.， 
中 定义 的 浏 试 模式 呈现 给 白 组 织 网 络 ， 并 且 确 定 具 有 最 强 响应 的 神经 元 。 对 所 有 的 16 种 
SAR FE 


RII 动物 的 名 称 和 它们 的 属性 


动物 m $8 8 LE E A 狐狸 Hh FP HH R HW 53 En 4 
小 型 | } 1 1 i | 0 0 0 0 1 0 0 0 0 
sipa 0 0 hb g 0 0 ] l 1 l 0 0 0 0 0 0 

AH 0 0 oOo D 0 0 0 0 0 Ü 0 | l i | 

2 Fiz 1 | | | i | ü 0 0 0 0 0 0 0 0 

4 ÆA Oo 0 0 0 0 0 0 ] 1 | ] ] l ] | l 
E pA 0 0 Ü Q 0 0 Ü | l ] ] ] l | | 1 
Bf ô o 0 0 0 0 0 0 0 0 0 0 0 1 | | 
E 0 0 û 0 0 0 i 0 Ü l 0 0 1 ! ] 0 
HE ] | | | ] ] l 0 0 0 0 0 9 0 0 0 
jee 0O o 0 0 1 | l l 0 | l | | 0 0 0 
JEN 0 0 0 o 0 0 0 0 1 1 0 | ] l 1 0 
ee l 0 0 ] l 1 | $ 0 0 0 0 0 t 0 0 
ty ik 0 0 ] 0 0 i 0 y ü 0 0 0 0 Ü 0 





按 刚 才 陈 述 的 方法 处 理 ， 我 们 得 到 图 9-17 所 示 的 映射 ， 其 中 标定 名称 的 神经 元 代表 它 
们 对 各 目的 测试 柑 式 有 最 强 的 响应 ， 点 代表 有 和 较 弱 的 响 庙 的 神经 元 。 

图 9-18 对 相同 的 自 组 织 网 络 显示 “模拟 电极 渗透 映射 "的 结果 。 但 是 ， 图 中 网 络 的 每 个 
圳 经 元 用 使 之 产生 最 好 响应 的 特定 动物 名 称 标记 。 图 9-18 清楚 地 表明 在 16 个 不 同 的 动物 中 
特征 映射 能 抓 住 “种 属 关 系 "。 这 里 有 三 个 不 同 的 聚 奖 ， 一 个 表示 ”* 鸟 类 ”， 第 二 个 表示 “平和 
的 种 属 ”, 第 三 个 表示 ”猎手 ”。 

图 9-18 32 78 BY FF TE Be SY Sa el BRA LE F ke BS BOR St ( Ritter and Kohonen, 1989: 
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dog dog fox fox fox cat cat cat | eagle eagple 
dag dog fox fox fox cat cat cat | eagle eagle 
wolf wolf wolf fox cat tiger tiger tiger | owl owl 


hawk hawk 
hawk hawk 
owl dove hawk dave dove 
hen hen dove dove 


ttger 
tiger 


walt wolf ion lion hon 







Norse 
horse horse 
zebra zebra 


hen hen dove dove 
hen hen duck goose 


zebra zebra duck duck duck goose 


19-18 ”利用 “模拟 电极 渗透 映 射 "的 语义 映射 ， 映 射 被 
分 成 三 个 不 同 区 域 ， 分 别 代 表 乌 类 、 平 和 和 神 属 及 "猎手 ” 


Kohonen ;1997a).， 这 个 映射 与 大 脑 皮 质 的 映射 相似 ( 即 在 太 脑 皮质 时 形成 的 计算 映射 )， 这 在 
9.2 节 里 作 了 简要 讨论 。 作 为 利用 SOM 算法 产生 的 结果 ， 上 下 文 映 英 在 众多 领域 找到 了 应 
用 , 诸如 文本 的 音 认 类 别 的 巨 监督 分 类 ， 通 感 (Kohonen, 1997a)， 数 据 探 测 或 数据 控 据 
{ Kohonen, 1997b) 。 


9.11 小 结 和 人 讨论 


由 Kohonen(1982) 提 出 的 自 组 织 上 映射 是 一 个 巧妙 的 神经 元 网 络 ， 它 建立 在 一 维 或 两 维 的 
神经 元 网 格 上 ， 用 于 捕获 包含 在 输入 (数据 ) 空 间 中 感 兴趣 的 特征 。 为 此 ， 它 利用 神经 元 权 值 
向 量 作为 原型 提供 一 个 输 和 人 数据 的 结构 袁 示 。SOM 算法 受到 神经 生物 学 的 激发 ， 综合 第 8 章 
中 讨论 的 所 有 上 自 组 织 的 基本 机 制 : 竟 争 、 合 作 秋 自 避 大。 因此 它 可 以 作为 昌 退 化 但 一 般 的 模 
型 ， 指 述 在 复杂 系统 中 从 完全 混乱 开始 最 终 出 现 整体 有 序 的 现象 。 

自 组 织 瞎 射 也 可 以 被 看 作 疝 量 量 化 器 ， 从 而 提供 一 个 导出 调整 权 值 呵 量 的 更 新 规则 的 厚 
理性 方法 (Luttrell, 1989b)。 后 一 神 方 法 明确 地 强调 邻 域 晴 数 作为 概率 密度 函数 的 作用 ， 

然而 应 该 指出 ， 基 于 使 用 在 式 {9,19) 中 的 平均 分 布 D, TEAR MER OT ea a — A 
法 ， 仅 当 特 征 映 射 被 很 好 的 排序 后 才 是 合理 的 。 在 Erwin et al. (1992b) 中 ， 证 明 在 自 适 应 过 
程 的 排序 阶段 ( 即 在 初始 是 高 雇 混 乱 的 特征 映射 的 拓扑 排序 期 间 ) 昌 组 织 上 映射 的 学 习 动 态 系 统 
不 能 用 一 个 代价 两 数 的 随机 梯度 下 降 描 述 。 但 就 一 维 网 格 的 情况 来 说 ， 它 可 以 用 一 组 代价 函 
数 描述 ， 对 于 网 络 中 每 个 神经 元 ， 一 个 对 应 的 代价 郴 数 随 随 机 梯度 和 下降 独 立地 被 最 小 化 。 

关于 Kohonen 的 SOM 算法 ， 令 人 和 惊奇 的 是 它 的 实现 如 此 简单 ， 但 在 一 般 设置 下 分 析 它 的 
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有 限 的 应 用 性 结果 。 在 Cottrell et 让 (1997) 中 给 出 大 于 SOM 算法 理论 方面 的 结果 的 综述 。 尤 
其 最 近 由 Forte and Pagés( 1995, 1997 FEW RS LATER, 结果 表明 就 一 维 网 格 情况 而 言 ， 
可 产 格 证 明 : 在 日 组 织 阶 段 结 束 后 ，SOM 算法 “几乎 确定 ” 收 伊 色 一 个 惟一 状态 。 这 个 重要 
的 于 来 已 被 下 明 对 一 大 类 守 域 晴 数 成 立 。 然 而 ， 在 多 维 情况 下 尚未 得 到 同样 的 结论 。 

户 后 一 咏 颖 问 是 日 然 的 。> 嵌 然 自 组 织 特征 上 映射 是 由 大 脑 皮质 映射 的 思想 所 激发 的 ， 很 自 
BR mh] Fe Te ik PP Se YA] VA Sn PE RT OE AR Erwin et al. (1995) 进 行 了 这 项 研究 。 地 
TA H HER PTE E JH RAT, CSE RAS [i 
的 维 数 在 5 维 : FARA Sloe ss ee i. PR RC aS. A eee A 
优势 。 皮 质 表 面 被 分 成 小 块 ， 每 块 被 视 为 两 维 网 格 的 计算 单元 ( 即 人 工 神经 元 )。 在 一 定 假 设 
下 ， 表 明 Hebb 学 习 导 敏 空 间 模 式 的 定位 和 视觉 优势 与 在 狂 猴 中 发 现 的 非常 相位 。 


注释 和 参考 文献 


11] 图 9-1 的 两 个 特征 映射 模型 是 由 von der Malsbure(1973) 的 目 组 织 的 先驱 性 研究 所 激发 ， 
Malsburg 广 总 到 视觉 度 质 的 模型 不 能 整体 被 基因 预先 确定 ; 相反 涉及 突 触 学 习 的 自 组 
织 过 程 可 能 导 敏 等 征 敏感 的 皮质 细胞 的 局 部 排序 ， 但 是 在 von der Malsburg HY ft A9 p AR 
EIR tee Jett he, BHARRA ER RAIRE, von der Malsburg 的 计算 机 仿 
其 也 许 是 第 一 次 展示 自给 织 。 

[2] Amari(1980) 在 荣 种 程度 上 放松 对 后 突 触 神经 元 的 突 触 权 值 的 限制 。Amari 给 出 的 数据 
分 析 曾 明 由 自 组 织 形成 的 皮质 映射 的 动态 稳定 性 。 

[3] Kohonen( 1993,1997a) 讨 论 自 组 织 映 射 的 神经 生物 学 的 可 行 性 。 

[4] Grossberg(1969b) 在 神经 网 络 文献 中 第 一 次 引入 式 (9.3) 描 述 的 竞争 学 习 规 则 。 

[5] 在 Kohonen(1982) 导 出 的 SOM 算法 的 原始 形式 中 ， 拓 扑 邻 域 假定 为 有 国定 的 范围 。 今 
d, He ANCE SP IY BRIA SRE PY ZS oc FU A FS Ae Ee. AER ao sath 
of dae SA 

| =} -dK (1) 

0， 其 他 
其 中 2K 为 兴奋 神经 元 一 维 邻 域 的 总 长 度 。 与 神经 生物 学 考虑 相反 ， 式 (1) 描 述 的 模型 
蕊 味 者 在 拓扑 邻 域 内 所 有 神经 元 以 相同 的 速度 点 火 ， 且 这 些 神经 元 内 部 的 相互 作用 与 
它们 到 获胜 神经 元 的 侧 向 距离 无 关 。 

[6] Erwin et al. (1992b) AHA “4 SOM 算法 利用 非 凸 的 邻 域 函 数 时 会 出 现 亚 稳定 状态 ， 它 表示 
TEPPER GIS PRAT MRA. Gauss RRO TERA BRK, KREIS 
PAX, BOR Gauss AZ, FE Bob HERP AY et a) LEE PSB ee ee ( ANTE RR) EY 
HEHA, AA ARE RS 

(7) 在 通信 和 信息 论 的 文献 中 ， 提 出 了 著名 的 标量 量化 的 星期 方法 ， 即 Lloyd 算法 。 这 个 算 
法 首先 由 Lloyd 在 Bell 实验 室 1957 年 未 发 表 的 报告 中 描述 (Lioyd,1957), 很 入 以 后 才 发 
表 ( Lloyd, 1982). Lloyd 算法 有 时 也 称 为 “最 大 量化 器 ”"。 用 于 向 量 量化 的 广 头 Lloyd 算法 
(generalized Lloyd algorithm, GLA) $È Lloyd 算法 的 直接 推广 。 广 义 Lloyd 算法 在 McQueen 
(1967) 将 其 作为 统计 聚 类 的 工具 之 后 有 时 称 为 -均值 算法 。 在 Linde et al. (1980) 5 


ww ai bbt.com PO00ODOO 





AT? 


PS 


8] 


| 10 


l 


346 | oF 


的 数据 压缩 文献 中 它 有 时 也 称 为 LBG 算法 ，Lloyd 算法 及 广义 Lioyd 算法 的 历史 评述 可 

参看 Gersho and Gray( 1997). 

Kohonen( 1993) 给 出 的 实验 结果 表明 ，sSOM 算法 的 集中 方式 比 它 的 在 线 方 式 快 。 但 是 恒 

用 集中 方式 时 SOM 算法 失去 白 适 应 能 力 。 

日 纤 织 有 映射 的 拓扑 性 质 可 由 不 同方 法 定量 评价 。 -种 这 样 的 定量 度量 称 为 地 形 图 产 冲 

(lopographic product), ‘ETE Bauer and Pawelakt1992) 中 描述 ， 它 可 用 于 比较 属 于 不 同 维 

数 的 不 辐 特 征 遇 射 的 真实 行为 ,但 是 上 只 有 当 网 格 维 数 和 输入 空间 维 数 匹 配 这 种 度量 才 

是 量化 的 。 

SOM 算法 励 能 力 提 供 输 入 数据 的 固有 分 布 的 可 信和 表示 ， 这 一 点 促使 对 算法 的 修正 种 真 

实 胡 小 输 入 的 新 自 组 织 算 活 的 发 展 。 

在 文献 中 有 两 类 SOM 算法 修正 的 报导 、 

(i) 2h Fn PiE, DeSieno( 1988) 在 阿 格 中 用 记忆 形式 跟 足 单个 神经 元 累计 激活 量 。 具 
Veoh, SAU" R G OL ila we SOM 算法 的 竞争 过 程 。 这 样 做 使 得 每 个 神经 元 不 管 它 在 
网 格 中 的 位 宣 如 何 都 有 机 会 以 按 近 于 理想 值 tii 的 概率 获胜 ， 其 中 i 为 总 的 神经 元 
数 。 习 古 9.8 给 出 具有 良心 机 制 的 SOM 算法 描述 。 

《ii 修改 自 适 应 过 程 。 在 这 第 二 种 方法 中 ， 对 用 于 调整 邻 域 国 数 内 评 个 神经 元 权 值 向 量 
的 更 新 规则 进行 修改 ， 控 制 特征 映射 的 放 太 性 质 。 在 Bauer et al. 【1996) 中 ， 表 明 通 
过 对 更 新 规则 添 斩 可 调 步 长 参数 ， 可 以 为 特征 映射 提供 输入 数据 的 可 信和 表示 。Lin 
et a.(1997) 遵 循 相 似 的 途径 引入 SOM 算法 的 两 种 修改 : 

* 修改 虽 新 规则 ， 抽 取 输 入 向 量 x 和 问题 中 神经 元 j 的 权 值 向 量 w, 的 直接 依赖 性 。 

* 利用 为 可 分 输 和 分布 特别 设计 的 等 伙 化 (equivariant) 训 分 替代 Voronoi 记分 。 

这 第 二 种 修改 使 得 SOM 算法 能 进行 育 源 分 岛 。( 言 源 分 离 在 第 1 章 有 简单 讨论 ， 在 
第 10 章 作 详细 讨论 ,) 

所 提 到 的 修改 建立 在 标准 SOM 算法 的 这 种 或 那 种 形式 上 。Linsker(1989b) 及 用 一 种 完全 

不 同方 法 。 有 具体 地， 利用 最 大 化 输出 信和 导 和 带 加 性 噪声 的 输入 信号 之 间 的 互信 息 的 方 

法 ， 导 出 用 于 地 形 图 上 映射 形成 的 全 局 学 习 规 则 -. CE Shannon 信息 论 的 互信 息 的 定 

XES 10 章 讨 论 。)Tinsker 的 模型 产生 与 输 人 分 布 精确 匹配 的 神经 元 分 布 。 利 用 信息 论 

的 方法 以 自 组 织 方 式 处 理 地 形 图 映射 形成 也 在 Van Hulle(1996,1997) 中 讨论 。 


[11] SOM 算法 和 主 昌 线 之 间 的 关系 在 Ritter( 1992) L Æ Cherkassky and Mulier(1995) 讨 论 。 导 


找 主 曲 线 的 算法 分 为 两 步 (Hastie and Stuetzl, 1989). 

1. 投影 ， 对 每 个 数据 点 导 找 在 曲线 上 的 最 近 投 影 或 最 接近 点 。 

2. 亲 件 期 望 。 应 用 散 列 图 沿 曲 恋 长 江平 滑 投 影 值 。 推 荐 的 程序 是 从 大 范围 开始 平 消 然 
后 逐渐 减少 。 

1 PA 2 #0 |] fe et fk SOM A ATE Ty BSB RB KA 


[12] 1986 年 Kohonen 提出 了 学 习 辐 量 量 化 的 思想 ，Kohonen(f 1990b, 19974) 描述 这 个 算法 的 3 


种 形式 。 在 9.7 节 讨 论 的 算法 形式 是 学 习 向 量 量 化 的 第 一 种 ，Kohonen 称 之 为 LVOL 
学 导向 量 量 化 算法 是 随机 过 近 算 法 。Bams and La Vigna{ 1990) 用 第 8 EAGER R EAA 
程 (ODE) 方 法 讨论 这 个 算法 的 收敛 性质。 
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习题 


SOM 算法 


9.1 pat ely, ean y, 的 非 线性 男 数 ， 它 如 同 在 (9.9) 中 那样 用 于 SOM BRE, W 
Ae ey, SAY Taylor 展示 的 常数 项 不 为 零 ， 讨 论 这 会 产生 什么 结果 ? 
9.2 ii nC AF 9-6 BOAR » 的 光滑 师 数 ， 利 用 式 49.9 ) 的 失真 度量 的 Taylor 
展开 ， Tee Ra xtp} 导 致 的 曲率 项 
9.3 ”有 了 时 说 SOM 算法 保持 输入 空间 中 存在 的 迫 扑 关系 ,， 严 格 地 说 ， 这 种 性 质 只 有 输入 
空间 的 维 数 与 杭 经 元 网 格 的 维 数 相 等 或 再 低 时 才能 保证 。 讨 论 这 个 陈述 的 正确 性 。 
9.4 一 般 说 基于 苑 争 学 习 的 SOM 算法 对 硬件 故障 不 具有 容错 性 ,但 是 算法 对 输入 的 小 
的 扰动 引起 输出 从 获胜 神经 元 跳 到 相 邻 的 神经 元 具有 容错 性 。 讨 论 这 两 个 陈述 的 含义 。 
9.5 考虑 由 (9.23) 表 示 的 SOM 算法 的 离散 形式 获得 的 集中 方式 ， 表 示 为 
2 aX, 
a Ai 
证 明 SOM 算法 的 这 种 形式 可 以 表示 成 和 Nadaraya- Watson 四 归 和 估计 鲜 相 似 的 形式 (Cherkassky 
and Mulier, 1995); 这 个 估计 散在 第 5 童 亲 论 ， 
+ 3 (a) Me tt 
9.6 在 本 题 中 考 虚 9.7 节 的 学 习 思量 量 代 算法 的 优化 形式 [Kohonen ,1997a) 。 我 们 希望 
调整 在 不 同时 间 对 Voronoi 向 量 所 做 的 修正 效果 使 得 参照 学 习 周期 结束 时 有 相同 影响 。 
(a) 首 先 ， 证 明 式 (49.30) 和 (9.31) 可 集成 为 -- 个 等 式 


Went l= il- sa, Win) + sc, x(n) 





J = ne ae | 


其 中 
rt a 若 分 类 正确 
”1 在 分 类 错误 
(DAE, Ha, = (1- s,as)a,_1 成 立 ， 证明 习题 开始 描述 的 最 优 淮 则 满足 ， 这 样 学 习 党 
ala, 的 最 优 值 为 


9.7 第 8 章 讨 论 的 最 大 特征 滤波 部 和 上 自 组 织 特征 映射 的 更 新 规则 者 利用 Hebb 学 习 假 设 
的 修正 。 比 较 这 卫 个 修正 ， 说 明 它 们 的 不 同和 相似 点 。 

9.8 民心 站 法 是 SOM 算法 的 修正 ， 它 迫使 密度 匹配 是 精确 的 匹配 (DeSieno,1l988 )。 在 
表 9-4 小 结 的 良心 算法 中 ， 每 个 神色 元 保存 它 竞争 获胜 的 次 数 { 即 它 的 突 触 权 值 向 景 在 
Fuclid 距离 下 成 为 距离 输入 向 晤 最 近 的 神经 元 的 次 数 )。 这 里 使 用 的 概念 ， 就 是 如 果 一 个 神 
经 元 获胜 太 频 若 ， 它 “感到 有 非 ” 从 而 进出 竟 争 , 

为 了 研究 利用 良心 算法 在 密度 匹配 上 产生 的 改善 ， 考 虑 由 加 个 神经 元 组 成 的 一 维 网 格 
CRIA FERRI ALFA BS 9-19 GHAR ARE ARE. 

(QAR OL Rte HR GCAM SOM 算法 产生 的 密度 匹配 ， 对 SOM 算法 合用 
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=0.005 而 民心 算法 使 用 B=0.0001, C= 1.0 fl 7=0.05, 
(bb) 作 为 这 个 比 吉 的 参考 框架 ， 包 拓 输 入 密度 的 “精确 "匹配 。 
讨论 你 的 计算 机 仿真 结果 . 
表 9-4 良心 算法 小 结 





1. -FHRA M E x aCA E A a E w.: 


lx- w, = min] x wl, = 12 N 
J 


2. 保持 - - 轮 神色 外 竞争 获胜 的 总 时 间 部 分 op, 
py = pi! + Bly, - pr) 
其 中 OQz Be «3 Ef 
pet FEAT j ARAT 
”Lo Heth 
在 算法 开始 时 ，P PEENE 


3, AAR OBL 
|. x — w, | = mint ll 一 w; | - h) 
了 
SRAM RR Re. Heb) 是 为 了 修改 竞争 而 引 大 的 今 畦 项 ， 它 定 交 为 
1 
ha c( + -») 


Ap CA Si V AP ee A Be 
4. SRAM ATH SHAR ; 
W= = We nl wli) 
共 中 了 为 通常 在 SOM 算法 中 机 用 的 学 习 率 参数 ， 


计算 机 实验 

9.9 在 这 个 试验 中 我 们 用 计算 机 仿真 研究 SOM 算法 应 用 于 具有 二 维 输 入 的 一 维 网 格 ， 
Plt a 65 个 神经 元 组 成 ， 输 入 由 图 9-20 所 示 的 三 角形 内 均匀 分 布 的 随机 点 构成 。 计 算 由 
SOM 算法 在 0，20，100，1000，10 000 和 和 25 000 PEE PoE A 





2.0 
Sa 
ir 
0.0 
-1.0 x} 1.0 D i 
| 9-19 图 9-20 


9.10 FETHA RE, h 10 x 10 神经 元 构成 。 
(a) FEA DAR 
O< x, < 1,0 < x, < 1), < x, < 0.23} 
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内 输 和 是 一 致 分 布 的 。 利 用 SOM 算法 计算 输入 空间 在 50, 1 000 和 10 000 IKARIA 
代 后 的 一 维 投影 。 
《的 当 输 大 在 一 个 里 大 的 区 域 
(Oe x, l), Oean < CD< x < 0.4)| 
内 均匀 分 布 时 重复 你 的 计算 。 
(c) “SR ATE ATK 
MO< x, < 1),(0 < x, <1), < x, < 1) 
内 均匀 分 布 时 再 一 次 重复 你 的 计算 。 
讨论 你 的 计算 机 仿真 结果 的 会 义 。 | 
9.1L Æ SOM 算法 应 用 中 经 常 出 现 的 问题 是 不 能 珍 成 招 扑 排序 而 产生 “ 折 和 到 ”映射 。 当 
多 许 名 域 体 积 豪 减 太 快 时 就 会 发 生 这 个 问题 ， 折 赫 映 射 的 产生 可 以 看 和 作 拓 扑 排 序 过 程 形 成 某 
种 形式 的 "局 部 最 小 ”。 

ATARATA, 考虑 一 个 10 x 20 神经 元 的 二 维 网 格 ， 用 在 正方 形 |( 一 1<x <+ 
D, (-leay< +I JARS AAI. EA SOM 算法 产生 的 上 映射， 允许 获胜 
圳 经 元 周转 的 邻 域 罗 数 比 正常 使 用 的 衰减 快 得 多 ,你 可 能 需要 重复 几 次 试验 才能 着 到 排序 过 
程 的 失败 。 

9.12 SOM 算法 的 拓扑 排序 性 质 可 以 用 于 形成 高 维 输入 空间 的 一 种 抽象 的 二 维 表示 形 
式 。 为 了 研究 这 种 表示 形式 ， 考 虑 由 10 x 10 神经 元 组 成 的 二 维 网 格 ， 它 的 训练 输入 空间 由 8 
维 空间 的 4 个 Gauss gE, ©, 6, ME 构成， 它们 的 中 心 位 置 分 别 为 (0,0,0,…,0)，(4,0， 
0,-7.0), (4,4,0,---,0)41(0,4,0,°--.0). 计算 由 SOM 算法 产生 的 映射 ， 在 映射 中 每 个 神经 
元 的 类 别 和 在 该 神经 元 周围 输入 点 中 县 有 最 多 输入 点 的 类 别 相 同 。 

9.13 表 9-5 给 出 重 正 规 化 SOM 算法 小 结 ; 9.3 节 给 出 算法 的 简要 描述 。 比 较 常 规 的 和 
着 正规 化 的 SOM 算法 ， 注 意 以 下 两 个 问题 

1. 算法 实现 所 涉及 的 编码 复杂 性 。 

2. 训练 花费 的 计算 机 时 间 。 


RS 重 正规 化 训练 算法 小 结 { 一 稚 的 形式 |】 


. 初始 雍 ， 置 码 字 柯 昌 的 煞 旧 为 一 小 整数 5 例如 ， 肖 简单 起 所 合用 2 或 对 所 求 问 题 更 有 只 代 志 性 的 其 他 数 月 )， 从 训练 
集中 随机 选择 相应 数目 的 训练 向 量 初 嫩 化 它们 的 位置 。 

.于 择 一 个 输入 向 王 ， 从 训练 集中 随机 造 择 一 个 输 人 向 景 。 

AMER, HERAT RRS ee. AAA, PREAMP MR 
“最 小 失真 "编码 规定 ， 

SHS. MR REAP Eee. PSA RES KER AMOR ,例如 
ERRER LEH n Ea a y2 

EPSP), EGEE CE 4), Fite APLE H eA ER REA TAR 
数目 的 10- 3 了 0 倍 。 这 时 语 书 大 概 已 经 稳定 ， 上 应 该 进行 碍 书 分 裂 。 为 做 到 这 一 点 你 始 叮 以 采用 你 所 有 的 码 字 向 其 的 
Peano $, HIEMER HEILA ER] Peano BAT EVRA BIR: 也 可 以 简单 对 每 两 个 已 有 的 码 宁 向 量 连 
HEA PP OS i E. 

TR ae. MaG AB A = h E A a en 100), a. 


pi 


bd 


rn 


和 


th 


oh, 


To A tarRiree—le Bs RRA, PAREEN ER AMER SHS. 
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说 明 这 两 种 算法 的 比较 ， 利 用 从 一 个 正方 形 内 的 均 旬 分 布 中 抽取 的 数据 ， 且 按照 下 询 两 

(a)257 个 神经 元 的 一 维 网 格 

(b)2094 个 神经 元 的 一 维 网 格 
在 这 两 种 情形 都 以 2 个 码 字 向 量 开始 。 

9.14 考虑 图 9-21 所 示 的 信号 空间 图 对 应 的 邓 行 冲击 幅度 调制 ( 和解 -ay pulse-amplitude 
modulation, PAM), M =8.0。 信 号 点 对 应 于 Gry 编码 数据 块 。 每 个 信号 点 由 具有 合适 幅度 大 
小 的 矩形 冲击 信号 表示 : 

5 3 ] 


p(t)=t5.25,45,435, Q<xt< fT 


其 中 了 Ata S Kiel. FER eA. BOE {LR LE (signal-to-noise ratio, SNR) 的 传输 信号 
eS BBY Gauss ARPS. SNR 定 尽 为 传输 信号 能 量 平均 和 噪声 能 量 平 均 的 比值 


BF 000 O01 Qil 010 110 111 101 100 
7 5 3 1 l 3 
冲击 幅度 -3 RO > | te 4 4 





图 9-21 


(a) 7A) AA BL (EL PE A eK eB A, PEAR SRARSNR = 10,20,30 4} U1 EU (ES HOHE 
(b) 对 这 些 SNR， 建 立 自 组 织 特征 上 映射。 你 可 使 用 的 典型 值 为 : 
。 对 接受 信号 以 8 倍 依 叶 率 采 样 获得 的 8 个 元 素 构 成 输 人 向 量 ( 即 每 个 信号 区 间 g 
TE). (RIS ALE BY el fF 
© 64 个 神经 元 的 一 维 网 格 ( 即 输入 癌 量 大 小 的 8 信 )。 
(0 对 三 个 SNR iba EBAY, Git fea SOM 算法 的 拓扑 排序 性 质 。 
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第 10 草 ” ”信息论 模型 


10.1 简介 


Claude Shannon 在 1948 年 发 表 的 经 典 论 文中 ， 为 信息 论 打 下 了 基础 。Shannon 在 信息 论 方 
面 的 开创 性 工作 “和 上 其 他 的 研究 工作 省 对 它 的 补充 ， 是 对 电子 工程 师 设计 商 效 可 靠 通信 系统 
的 需求 的 直接 回应 。 无 论 它 的 实际 起 源 必 什么 ， 如 我 们 今天 所 知道 的 信息 论 正 是 关于 通信 过 
程 本 质 的 深刻 数学 理论 。 这 个 理论 提供 一 个 对 根本 问题 研究 的 总 体 框 架 ， 例 如， 信息 表示 的 
效率 以 及 一 个 通信 信道 可 靠 信 息 传输 的 极限 问题 。 而 且 该 理论 包括 很 多 有 力 的 定理 用 以 计算 
最 佳 表示 和 信号 所 携带 信息 的 传输 的 理想 界限 。 这 些 界限 非常 重要 ， 因 为 它们 为 提高 信息 外 
理 系 统 的 设计 提供 了 标准 。 

这 一 章 我 们 的 主要 目的 是 讨论 以 一 种 原则 性 方式 导致 自 组 织 的 信息 论 模型 .在 这 个 彰 
景 下 ， 特 别 值得 注意 的 模型 是 由 Linker 于 1988 年 提出 的 最 太 互 信息 原则 (maximum mutual 
information principle)!” . BRM RW, SERA RRA ea aA: A 
网 阁 的 每 个 处 理 阶 段 ， 当 进行 信号 变 拉 时， 为 保留 的 信息 量 达 到 最 太 ， 要 订 从 一 定 的 的 
束 条 件 。 利 用 信息 论 来 解释 人 们 的 感知 过 程 并 不 是 什么 新 的 想法 。 例 如 ， 我 们 可 能 注意 
到 1954 年 Atmeave 写 的 一 篇 早期 论文 ， 其 中 提出 了 关于 感知 系统 的 下 面 信息 理论 性 作 
FA: 


Ee R E o — SEB Ea) Me, MPC PERE RS HAP AH OS 
式 对 信息 进行 揪 述 或 编码 。 

在 Attneave 的 论文 背后 的 主要 思想 在 于 认识 到 为 减少 了 见 作对 场景 数据 编码 和 确认 场景 中 
特定 特征 是 相关 的 。 这 种 重要 认识 和 在 Craik 1943) 描述 的 关于 大 脑 的 观点 相关 ， 在 该 论 艾 
中 构造 一 个 外 部 扯 界 的 模型 以 便 结 人 台 现 实 的 规则 和 约束 。 


本 章 的 组 织 


本 章 主体 组 织 成 两 部 分 。 第 一 部 分 由 10.2 节 至 10.5 节 组 成 ， 提 供 对 信息 论 基 本 原理 的 
回顾 。 在 10.2 节 讨 论 作 为 信息 的 一 个 定量 度量 的 炮 的 概念 ， 这 上 自然 导致 10.3 广 讨 论 的 最 大 
HER: FL, RME 10.4 节 讨 论 互信 息 的 概念 和 它 的 性 夺 ， 随 后 在 10.5 节 讨 论 Kullback- 
Leibler BYE. 

本 章 第 二 部 分 由 10.6 节 至 10.14 节 组 成 ， 处 理 用 于 自 组 织 系 统 的 人 情 息 论 模 型 。10.6 T 
提出 把 互信 息 量 作为 一 个 最 优化 的 目标 丽 数 。 最 天 互信 息 原 则 在 10.7 节 介 绍 ， 随 后 讨论 该 
原则 与 10.8 节 中 的 元 余 减 少 原 则 之 间 的 关系 。10.9 节 与 10.10 节 中 处 理 最 大 互信 息 原 则 适 
记 于 图 像 处 理 中 不 同 应 用 的 两 个 变 体 。10.11 节 到 10.14 节 提 出 三 各 不同 的 方法 解决 目 源 分 
ye] tell 

在 10.15 节 中 提出 一 些 最 后 的 评论 结束 本 章 。 
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10.2 1 


遵循 概率 论 中 通常 使 用 的 本庄， 我 们 以 大 写字 母 表 小 随机 变量 ， 以 相应 的 小 写字 母 表 示 
随机 变量 的 值 。 
对 于 一 个 随机 变量 *， 它 的 每 一 个 实现 (出 现 ) 可 看 作 一 个 消息 。 严 格 地 说 ， 如 果 随 机 变 
其 的 幅度 但 是 连续 的 ， 则 它 带 有 无 穷 的 信息 。 但 尾 ， 从 物理 和 生物 的 角度 来 看 ， 我 们 认 
识 到 讨论 有 具有 无 限 精 虚 的 幅度 度量 的 信息 是 没有 意义 的 ， 这 就 是 说 可 以 把 X 的 值 … 致 量 作 
到 有 限 的 离 敬 水平。 这样 我 们 可 雇 把 五 看 成 有 是 离散 的 随机 变量 ， 其 模型 为 
X= jx 1k = 0, 41,--, + KI (10.1) 
其 中 rn 是 一 个 离散 的 数值 且 (2K + DEER BRE, BROOK PBIB sx 假设 非常 
小 ， 能 够 以 足够 的 精度 来 描述 我 们 感 兴趣 的 变量 。 当 然 我 们 能 够 接近 连续 的 极限 ， 只 要 8x 
>0 [外 臣 于 无 穷 ， 在 这 种 俏 碗 下 就 得 到 连 织 变量 而 且 ( 在 本 节 后 面部 分 我 们 将 看 到 ) 求 和 恋 
为 完善 模型 ， 让 种 件 X = x LABS 
py = PAX = x) (10.2) 
发 生 ， 其 中 要 求 


A 
Osp < 1A Sip, = 1 (10.3) 
k=--K 


假如 事件 X = x, 发 生 的 概率 p, = 1， 因 此 要 求 对 所 有 ikp =0。 在 这 种 情况 下 ， 如 
RPF X =a 发 生 不 没有 计 双 “惊奇 "的 了 ， 并 且 不 传达 任何 “信息 ”"， 因 为 我 们 知道 消息 必 
须 是 什么 。 在 为 一 种 情况 下 ， 如果 各 种 记 散 术 平 发 生 的 概 举 不 同 ， 特 别 地 概率 p, TR), Bb 
25 RE 而 不 是 具有 更 高 概率 p, BROKE sis kt, SABA RA MA 
“信息 "了 。 因 此 词 “不 确定 "、“ 惊 奇 " 和 “信息 ”是 相关 的 。 在 X= x, 发 生 之 前 ， 有 一 定 的 不 
确定 性 。 在 车 = x 发生 之 后 ， 有 一 定 惊奇 。 在 三 = xi 发 生 之 后 ， 信 息 量 增加 了 。 这 里 的 一 
个 重 很 显然 是 一 样 的 ， 而 且 信 息 量 与 事件 发 生 的 概率 成 反比 。 

我 们 定义 观察 到 具有 概率 p HFI -=r 后 所 获得 的 信息 增益 量 为 对 数 力 数 


i(x,) = lg 一 | = — logp, (10.4) 


其 中 对 数 函 数 的 底 是 任意 的 。 当 以 自然 对 数 为 底 时 ， 信 息 的 单位 是 条 特 (nat)， 当 以 2 为 底 
时 ， 单 位 是 比特 (bit)。 在 任何 情况 于 以 式 (10.4) 定 愉 的 信息 量 者 有 以 下 的 性 质 ， 


1 . Ha,)=0, 4 p,=1 (10.5) 

TR, WBS ee A ESE, UU SAE IN RR AR GB Bo 

2. I(x,)20, 4Onep, <1 (10.6) 

EME., SSP Y =a 发 生 时 ， 或 提供 一 些 信息 或 不 提供 信息 ,但 不 会 导致 信息 损 
Ra 

3, Kasa), Smp (10.7) 


也 就 是 说 ， 小 概率 事 忻 发 生 时 携带 的 信息 量 比 大 概率 事件 发 生 时 携带 的 信息 量 多 。 
信息 量 Tx,) 也 是 一 个 具有 概 府 p 的 离散 随机 变量 。I(x, ) 在 全 部 2K + 1 个 离散 数值 上 
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的 平均 值 定义 为 
H(X) = Eli(s,)] = Spills) = = - Diplo (10.8) 
量 ACK ARP RH es X WM; 之 所 以 称 为 粹 是 因为 (10.8) 给 出 的 定 
闵 与 统计 热力 学 中 的 炳 非常 相似 **。 燃 H(X) 表 示 每 一 个 消息 所 禄 带 的 信息 的 平均 量 。 注 意 
在 H(X) 中 半 不 是 H(X) 的 变量 ， 而 是 一 个 随机 变量 的 标记 。 同 时 注意 到 在 式 (10.8) 中 我 们 
H O log 0 ATO. 
ACY) BEER EA F: 
Ox H(X) = log(2K + 1) (10.9) 
RPQK+I EEN BRE. Ha, RIFA PUA 
1 .HCX) =0 当 且 仪 当 对 于 某 一 个 概率 p, =1 时， 而 集合 中 其 他 的 概率 为 0; WERI 
下 界 不 对 应 不 确定 性 。 
2.H(X) = log, (2K + 1) 当 有利 仪 当 对 所 有 的 尺 ，ps = 12K + 1)( 即 所 有 的 离散 值 的 概率 相 
Fh 这 个 上 界 对 应 最 大 不 确定 性 。 
第 二 性 质 的 证 明 要 用 到 下 面 的 引 理 (GCray,1990); 


对 离散 的 随机 变量 X BRERA LTD) pig}, M 
Pe 
Spa log] i = 0 (10.10) 


SHR BAAR, pag, 都 成 立时 ， 上 面 的 等 式 成 立 。 

这 个 引 理 所用 的 量 是 如 此 的 重要 ， 以 致 我 们 和食 下 来 以 适 守 在 随机 系统 的 研究 中 使 用 的 形 
FURIE ES px (x) 和 gqy(x) 表 示 一 个 随机 变量 在 两 个 操作 条件 下 人 处 于 状态 x 的 概率 。 两 
个 概率 质量 函数 py (x) Al gy (x) 的 相对 炉 或 Kullback-Leibler 散 度 (距离 ) 定 义 如 下 (Kullbhack， 
1968 , Cray, 1990; Cover and Thomas, 1991) ; 


Bois = 2 p(x)log( 2 aoa (10.11) 
其 中 求 和 是 对 所 有 的 可 能 的 系统 状态 { 即 离散 随机 变量 OSE), PE et Bog ( x) 


起 看 参考 度量 的 必用 。 
连续 随机 变量 的 微分 焕 


信息 论 概念 的 讨论 现在 只 涉及 它们 的 幅度 离散 的 随机 变量 总 体 。 现 在 我 们 将 这 些 概念 中 
的 一 些 扩展 到 连续 随机 变量 。 

假设 连续 随机 变量 xX 的 概率 帘 度 隙 数 是 (x)， SRE Se ZR, RAN 
作 如 下 定义 ，; 





h(X) =- | fea )logfy x) de = = Ellogf-(«)] (10.12) 


我 们 将 RODEA X (4K 248 (differential entrppy)， 与 一 般 的 或 绝对 精 相 区 别 。 我 们 这 样 做 
认识 到 虽然 ht 计 ) 是 一 个 有 用 的 数学 量 ， 和 但 它 在 任何 意义 下 也 不 是 一 种 y 的 随机 性 度量 。 
我 们 对 使 用 (10.12}) 的 合理 性 可 以 解释 如 下 。 和 开始 将 连续 随机 变量 看 成 离散 随机 变量 
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的 极限 形式 ， 设 r = kër, HO R=0, £1, +2, --, H x BFO BEM, ERS 
E X 取 值 在 Lx ，x têr ZARB Aa, és. WHA, H òr 趋 于 0 时 连续 随机 变星 三 的 
普通 箭 可 以 写成 姑 下 极限 的 形式 : 


ACX)=- lim Dd) Fel my öxlog fi (xs Ex) 


= — lim v(x, )Clogfy (x, Sx + logdx y (a, Ox 
liml 2 Al ) (logfr (a4) )3x + loga 3) f(a) (10.13) 


= -| frlx)logfy (x) dx limlog3z| f(x)dx 

= A(X) 一 limlogdx 
RRS AAS TROD AR a RA PSE, 5 8x 趋 于 
ORT, -ledsx ATAS A. KRKSERMIERH AB ARAK. CARL, RMS 
这 是 真 的 ， 因 为 随机 变量 可 以 在 { - m ,om 1) 上 上 任意 取 值 ， 利 随机 变量 彬 鞠 联 的 不 确定 性 是 无 
穷 阶 的 。 为 了 如 分册 再 硕 - log: 所 带 来 的 问题 ， 我 们 采用 站 (了 作为 揪 述 随机 变量 Y 的 微 
sph. Ul - log8x 作为 参考 。 而 旦 , FREASA ENEA ek, BTR 
的 实际 上 是 具有 相同 做 考 的 两 个 炉 项 的 差 ， 信 息 将 和 相应 微 分 简 项 之 间 的 差 是 一 样 的 。 所 以 
我 们 完全 有 理 页 采用 在 (10.13) 所 定义 的 项 六 二 ) 作 为 连续 随机 变量 了 的 微分 箭 . 

当 有 一 个 由 n SSI X, X%, oo, X, ARES ke, 我们 定义 到 的 
R(X) = -| fa(®logfx(x)dx = (10.14) 


其 中 A, (x) FE X ARE HE EAM. 
$110.1 Hach 考 虚 在 [0,1j] 区 间 上 均匀 分 布 的 随机 变量 X, RaW 


f(x) = | | 


0 其 他 
应 用 (10.12) ， 我 们 得 到 X BoA 
R(X} = 一 p 1 + log] dx -| l - Odx = 0 


FRUI X RIR O. B 
TR TEA 
MINO. 12) 4 RRA a EA PARA BERDEA, Bf 
hX +e} = hOX) (10.15) 
其 中 e HAR, 
AX)A~—TA ARE 
h(aX} = ACX) + log! a | (10.16) 


其 中 a 为 比例 系数 。 为 了 证 明 该 式 ， 我 们 首先 知道 概率 密度 函数 曲线 下 方 的 面积 是 1， 故 
| fly) = 一 fel ©] (10.17) 


| 在 | 
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接着 应 用 式 (10.,12)， 我 们 可 写成 
ACY) =- El[logf(y)] =- {tos lh] =— dl log | a | 
代入 Y= aX 得 到 
hla) = 一 | _ fe x )logfy (x) de + log | a | 
Fa Le ie A RIO. 16). 
ACLO.16) Feb REL a, tL HE A FB Le E XK LE A 的 情况 如 
F: 


h( AX) = A(X) + log | det(A) | (10.18) 
其 中 det( A) SH A 的 行列 式 。 


10.3 RAHA 


假设 有 一 个 随机 系统 ， 已 知 一 组 状态 ， 但 不 知 其 概率 ， 而 且 我 们 知道 这 些 状 态 的 概率 分 
HH - 些 限制 条 件 。 这 些 条 件 或 者 是 口 知 一 定 的 总 体 平 均值 ， 或 者 是 它们 的 一 些 界限 。 在 给 
定 关 于 模型 的 先 验 知 识 的 条 件 下 ， 间 题 是 选择 一 个 在 某 种 意义 下 最 佳 的 概率 模型 。 我 们 经 常 
发 现 有 无 穷 多 种 模型 可 以 满足 条 件 。 应 该 选择 哪个 模型 呢 ? 

这 个 基本 问题 的 答案 基于 Jaynes(1957) 提 出 的 最 大 炳 原则 四。 最 大 仿 原 则 可 以 陈述 如 下 
( Jaynes , 1957 , 1982) - 

当 炉 据 不 完整 的 信息 作为 依据 进行 推断 时 ， 应 该 由 满足 分 布 限制 条 件 的 具有 最 大 粒 的 概 
率 分 布 推 得 。 


实际 上 上， 类 的 概念 在 概率 分 布 空间 和 定义 一 种 度量 ， 使 得 具有 较 高 箭 的 分 布 比 其 他 的 分 布 
具有 更 天 的 值 。 
从 上 面 陈述 ， 很 骨 显 “ 最 大 精 问 题 " 是 一 个 约束 最 优化 问题 。 为 了 说 明 解 这 个 问题 的 步 
DR, SBER A 
A(X) = -| fela )logfy (x) da 
对 所 有 随机 变量 PSR ea Ce), FORE PARAS: 
L.fcladeO, FE x 的 支撑 集 之 外 等 式 成 立 


2. | fala) de = ] 


a frla}a,Ca}dx = a; XF i= 1,2,++,m 


其 中 eg (atic ARAR., AR AAR 2 Ree E A AE, AR 3 E 

义 变量 X AVE, CMRR &.(x) 的 表达 式 不 同 而 发 生变 化 。 实 际 上 ， 约 东 3 综合 随机 变量 

的 可 用 先 验 知识 。 为 了 解决 这 个 约束 最 优化 问题 ， 我 们 利用 Lagrange 来 子 法 四 ， 首 先 形成 目 
PRERA XI 

KP = | L- AC dlogh(e) + rahe) + Dag (f(x) de (10.19) 
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FLAN Als ts A, 是 Lagrange eT. RPARPA PRICK Cx, HEERA OO, FREE 


Anette th. Shuts at 
APE tC Fy 1I 


fy(x) = sul 84%, + Sats (10.20) 


在 式 (10.20) 的 Lagrange 乘 子 根据 约束 条 件 2 A 3 PE. 3h10.20) Vix ti MBA 
布 。 
例 10.2 一 维 Guas 分 布 ”假设 我 们 可 用 的 先 验 知识 为 随机 释 量 X EHA MZ Oo’, 
ASTRAL SC, Hal 
| (x - u) filx)dx = 中 = constant 


将 此 式 与 约束 条 件 3 作 比较 ， 看 出 
g(x} = (x S a a = g 
Bir ck hy FA (10. 20) AT 43 
fikx) = expp-14 4 + h(x ay] 
TERROR fy Ca Aw -— o PAC) a PASEO, WN, 为 人 负数 。 将 此 等 式 代入 约束 条 件 
273, BEE Ay MA, 我 们 得 到 





Ag = 1 - log(2x0°), Mu = - 7 
所 以 希望 的 上 (x) 的 分 布 形式 为 
a S (a — p) 
fr fs) op = Ve" (10.21) 


TMT AUIS EPA pp eA BA oo” 的 Gauss 随机 变量 X PARR SEE RY. OREM REAL 
et A Gk Sp el BAD Ee A LY 


ACX) = 2 [1 + log{ 220" ) ] (10.22) 


RTP ATE an PF Bp ae 

1, 对 于 给 定 的 方差 9， 在 任意 的 随机 变量 中 Cus 随机 变量 取得 微分 疯 的 最 大 值 ， 也 就 
是 说 ， 如 果 针 是 一 个 Gauss 随机 变量 ，Y 是 其 他 具有 相 同 均 但 和 方差 的 随机 变量 ， 则 对 所 有 
的 了 

ACK) = RACY) 
只 有 当 寺 与 了 相同 时 等 式 成 立 。 

2.Gauss MALE E X OBAMAS X HAE XY WX). 

S 10.3 多 维 Ganss 分 布 在 这 第 二 个 例子 中 ， 我 们 想 在 例 10.2 的 结果 基础 上 ， 建 立 
计算 多 维 Gausa TARATARA AR. 出 于 (rauss Ay AR EAD AY 与 随机 变量 A 的 均值 无 关 ， 
为 出 化 讨论 ， 我 们 可 以 仅 讨论 具有 均值 为 0 的 随机 变量 X, EX HOES 
老 筷 阵 互 决定 ， 它 为 系 问 自身 的 外 积 的 期 望 . 这 样 习 的 联合 概率 密度 梢 数 由 


| = 
{x(xX) = aay aa- 5X Li x) (10.23) 
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“itt Wilks, 1962), OP der DDE DAT PEL, (10.14) X X Bear, Eep (10.23) 
{RACIO.14), FETE 

A(X) = zim + mlog(2x) + log | det(£) 1] (10.24) 


A FETA (10.22) WE Pl, FRR CRC PS , FR ARE, RPE BI — 
HEERE, FAAS SHARE) Oy] ARUP SIC Gauss 分 布 上 共有 最 大 的 微分 倘 ， 
ith Bek Pao og 010. 24) eM W 


10.4 互信 息 


仕 设计 一 个 日 组 织 系统 时 ， 根 本 的 目的 斌 是 仪 仅 根 据 输入 模式 米 获得 - -个 学 习 算 法 ,该 


算法 能 够 学 习 输 入 和 输出 的 关系 。 在 这 个 背景 下 ， 由 于 互信 息 的 概念 有 很 多 好 的 性 质 ， 所 以 
非常 重要 。 交 了 以 后 的 讨论 ， 假定 随机 系统 具有 输入 于 和 输出 FY， 而 比 X MY Ait 
RAY, OS x 和 7 表示: COX) RK 三 的 先 验 不 确定 性 。 那 么 ， 当 观测 到 Y 后 我 们 
如 何 度 量 对 外 的 不 确定 性 ?为 了 回答 此 问题 ， 我 们 定义 在 给 定 YA RIAA A (Cray, 
1990; Cover & Thomas, ]991) 

HXI 了) = HOX,Y) - HCY) (10.25) 
具有 性质 

O< HOX!| FY) = H(X) (10.26) 

RIA HX YARRA ARR RY, MN RB ORME EES, 在 式 (10.25) 中 
H(X, Y)EX AY HRS, H 


H(X,¥) =- Dd) Dd) p(x, y)logp(x,y) 


zE yo 
EX, 其 中 plr, y FERRE XY PLY HRARMARE SR, WHPMSRRENSAAH 
FHR. 

HFA 及 ( 半 ) 表 示 在 没有 观 淹 系 统 输出 前 我 们 对 系统 输入 的 不 确定 性 ， 条 件 CYL) 
表示 在 观测 到 系统 输出 后 对 系统 输入 的 不 确定 性 ， 差 CX) - H(X17) 表 示 观 察 到 系统 输出 
之 后 我 们 对 系统 输入 的 不 确定 性 的 减少 ,这 个 量 就 叫做 随机 变量 六 和 了 之 间 的 互信 息 ， 由 
IX; 了 了 表示， 我 们 可 以 写成 *” 

ICX;¥)= H(X) - ACX IY) 
plx, y) 
= 2424 pla, vlog A) (10.27) 
精 是 立信 县 的 一 个 特例 ， 因 为 我 们 有 
ALX) = 1(X;X) 
POT ea BE OLE et 工 和 了 的 下 信息 关门 有 如 下 的 性 质 (Cover and Thomas, 1991; Gray, 
1990) ， 
1 . 瑟 和 了 的 互信 息 具 有 对 称 性 ; tHE 
fC¥;X) = I(X;Y) 
Ep Wie ICY; XARA XY, HAS YORE, mY; YO 
不 观测 系统 输出 后 对 系统 输入 的 不 确定 性 的 减少 ， 
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2. 中 和 上 的 互信 息 总 是 非 负 的 ; 也 即 
FOX: ¥) = 0 

实 奈 上 ， 这 个 性 质 说 明 ， 通 过 观测 系统 的 输出 了， 平均 说 来 我 们 不 可 能 于 和 失 信息。 出 朋 ， 当 
日 权 当 输入 和 输 明 统计 独立 时 无 信 息 为 0。 

XPV MEERA AY OR 

IOX:¥) = ACY) HOY | X) (10.28) 

其 中 ACY XDA. R0020 Ra dem Ra Y 的 总 体 平均 传达 信息 减 去 我 们 知 
省 系 统 输入 后 关于 了 的 总 体 平均 传达 信息 ;了 ); 后 个 量 ACY XARA 
而 不 是 关于 系统 输入 A BEA Go 

图 和- 用 一 个 可 视 化 的 图 来 解释 等 式 (10.27} 和 {10.28)。 系 统 的 输入 的 灶 有 8(X) 用 磊 
WHE, SH YARRA Me, XY RRA Pe eRe 





FR Cl 
FIA. F) 
_ i i 
pe | 
| XAY) YS 
| FANNI me tes | 
| Ht i | 
\ = 
N, ae) ese 
K POLES He tals 
E g E 
Hi yY) ALY) 
10-1 BUS BON: YA AON) A YOR ibe, HA 
连续 随机 变量 的 互信 息 


给 定 一 对 连续 的 随机 变量 X 和 了， 类 侯 式 (10.27)， 我 们 定义 随机 变量 X MY Wai 
为 





X; Y) = EE ici 2 2) ee (10.29) 
其 中 六 (xy) 是 三 和 了 联合 概率 密度 图 数 ，A(z17) 是 当 了 = 了 时 芭 HARTE ER. 
注意 
ferla D = fle fikr) 
所 以 我 们 也 可 以 写成 


D = fers low Zee) 
辣 前 面 讨论 的 离散 随机 安 量 类 似 ， 连 续 随机 变量 X 和 了 的 互信 息 有 如 下 的 性 质 ， 
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FOX: ¥) = hX) - ACK | ¥} 


= hÍ Y) -~ ACY 1X) (40.30) [494] 
= h(X) + hCY) - ACX,Y) 
Y; X) = HX:¥) (10.31) 
I(X:¥) =0 (10.32) 
Bat he X Wat. A A YH SR ACXIY ESE YR MRR, AR 
积分 
A(X | 了 ) = -| [ferte ploh (x | vy dx dy (10.33) 


定义 。 参 量 h( 了 1X) 是 给 定 XY AR, GE ACK YR, SE hA, YE X 
Al Y BRA tor a 
注意 式 (10.32)， 只 有 在 随机 变量 XY AY KRHA ERA. SHB, X 
和 了 的 联合 慨 迹 密度 晒 数 可 分 解 成 
fartar) = filad fy) (10,34) 
其 中 RORONILE X ALY ER eK, Seb, RSR 
fy lx | y) = Fyfe) 
这 舰 是 说 了 的 丝 浪 的 其 识 完全 不 能 影响 于 的 分 布 。 将 其 代入 式 {10.29) 导 致 CX; 了) =0。 
在 式 (10.29) 中 给 出 的 互信 息 适 用 于 纯 量 随机 变 荆 五 和 了 。 这 个 定义 也 易于 扩展 至 随机 
Alm MAY, Allee CX; Y). Eal., RIEL MX WHER. 
I(X;Y) = [S arapo 22 a) dx dy (10.35) 
万 信息 UX WRRAA Sh( 10.30) 250 010.32) Pea LS RHEE GEM. 


10.5 Kullback-Leibler RE 


在 式 (10.11) 中 我 们 定义 离散 随机 变量 Kullback-Leibler 散 度 。 这 个 定义 也 可 扩展 到 随机 
JERRI. AON gx (x) FEAR om x 1 的 随机 向 量 四 的 两 个 涉 同 的 概率 分 布 函数 ， 根 
据 式 (10.11)， 我 们 可 VASES. AO) Al gy Ox) 1 Kullback-Leibler A BF H ( Kullback , 1968;Shore and “495 
Johnson, 1980) 

Deg = | Alog fx dx ( 10.36) 
Kuliback-Leibler 散 度 有 一 些 特有 的 性 质 . 

L. 它 总 是 正 的 或 为 和 地。 在 特殊 的 条 件 下 , 当 (x) = gxtx) 时 ， 两 个 分 布 完全 重合 ， 而 
D,, ,正好 为 堆 。 

2. 对 于 向 量 x 的 各 分 量 作 如 下 的 改变 ， 其 值 不 变 : 

。 各 分 量 依 序 置换 

© 乘 以 一 个 比例 系数 

。 单调 非 线 性 变换 

一 对 向 量 X, VY 之 阐 的 互信 息 (XX; 了 用 Kullback-Leibler 散 度 有 一 个 有 趣 的 解释 。 首 先 ， 
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我 们 注意 到 
fxy(®% y) = ACY | X) fax) (10.37) 
所 以 ， 可 以 将 式 {10.35) 改 与 成 如 下 的 等 价 形 式 : 
fyl X, y) 


XV =] | farao AEE] ax dy 
将 其 与 式 (10.36) 作 比较 。 我 们 立即 推 得 
KXsY) = De aira (10.38) 


AMET, X ALY aS RG BSR Soe at A x, yA EE AR fy (xX) 
应 (的 来 积 的 Kullback-Leibler AVE , 

后 一 往来 的 特例 是 m x 1 的 随机 向 量 % 的 概率 密度 函数 f(x) 各 它 的 m PR SE 
pa 3829 Kullback-Leibler 散 度 。 令 f(x ) 表 示 第 i TIGR X, 的 边缘 概率 密度 函数 ， 由 


F(a) =! fax, is1,2re,m (10.39) 


定义 ， 其 中 x“ 是 一 个 从 x 中 除去 第 i 个 元 素 后 的 (m - 1) x1 向量 。f (x) 和 析 因 分 布 
li, fr (x, 的 Kullback-Leibler AEE SA 





xix) 
Dr jy = -| fx(x) log Ili (x) (10.40) 
也 可 以 写成 展开 形式 
De | f(a Nosh (x) dx - D1] flogfs (x, )dx (10.41) 


REL, SRCO.4I SE PSS SF -A X, BOP ACK X MBO, POST 
项 ， 我 们 首先 注意 到 
dx = ER dx. 


因此 可 以 写成 
| fx (xX)logfr (%, )dx = | logfr Gof fx(x dx” dx, (10.42) 
其 中 右 端 内 层 积 分 是 对 (m - 1) x 1 向 量 x’? 4}, 而 外 层 积分 是 对 标量 x 积分 , 但 从 
(10.39), 我们 发 现 内 层 积 分 实际 .上 等 于 边缘 概率 密度 函数 [x%,)。 由 此 可 以 将 (10.42) 重 写 
为 等 价 形式 
| Alog Cu)dx= | FC)ogh (x) de 
=-h(X,), i= 1t,2,-',m (10.43) 
其 中 ACK, RES i PR CD ae fy Cx, AUT). EHSL (10.43) FRA 
式 (10.41}， 并 注意 式 (10.41) 中 的 第 一 个 积分 为 ACK), FR h (10.41) AY Kullback-Leibler 
ALE Lia A 
Dy 7, == ROO + RD (10.44) 
这 个 公式 将 在 本 章 后 面 讨论 育 源 分 离 问题 中 特别 有 用 。 
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Pythagoras 分 解 


上 面 我 们 考虑 概率 密度 图 数 OA x) A Of (x) èE} Kullback-Leibler HE., m x 1 随机 网 量 
U 是 由 m 个 独立 的 变量 组 成 ， 由 


fox) = [Pf (x) 
表示 ， 而 mxl HEELE Xela UEH 
X = AU 

其 中 A 是 -个 非 对 角 和 矩阵 。 令 fy Ce, RRMA 掺 (xX) 导出 的 每 -个 《的 边缘 概率 密度 ， 则 
fx Os) 40 fo (x) -Z 1/8) 99 Kullback-Leibler BBE AY LUEN AY Pythagoreas 分 解 : 

Deis, = Dr EF + Dy {10.45} 
我 们 之 所 以 称 这 个 经 典 的 关系 为 Pythagoreas 分 解 ， 蚌 因为 它 具 有 信息 -几何 解释 (Amani， 
1985)。 在 注释 ”中 给 出 这 种 分 解 的 证 明 。 


10.6 互信 息 作 为 最 优化 的 目标 函数 


现在 我 们 对 Shannon 的 信息 论 模型 已 经 有 了 返 当 的 了 解 ， 可 以 讨论 它 在 研究 自 组 织 系 统 
中 的 必用 。 

为 了 进行 讨论 ， 设 有 一 个 多 输入 /多 输出 的 神经 网 络 系 统 。 在 这 里 主要 目标 是 为 一 个 特 
定性 务 !{ 例 如 ， 建 懂 、 抽 u 取 统计 突出 特 生 或 信号 分 离 ) 而 设计 的 系统 进行 自 组 织 。 通 过 选择 村 
此 系统 变量 则 的 互信 息 作为 优化 的 目标 函数 ， 这 个 要 求 可 以 满足 。 这 种 特定 的 选择 应 该 考 虚 
下 述 因 素 ; 

: 互信 息 如 同 10.4 节 的 讨论 有 一 些 独 特 的 性 质 。 

。 无 需 教师 也 可 确定 ， 这 样 日 组 织 的 假定 日 然 满 号。 

问题 变 成 了 系统 调整 自由 参数 ( 即 帘 甬 权 值 ) 以 优化 总 信息 的 问题 。 

根据 应 用 的 不 同 ， 我 们 能 够 确定 如 图 10-2 所 示 的 4 种 不 同情 涡 , 它 们 都 可 能 在 实际 中 
上 出现 。 这 些 情 况 可 以 描述 如 下 : 

* 在 10-2a 挡 给 的 情况 E, MAE AARDE, XA’ An BK, Bee Y 由 分 

BYL. Y, eY, 组成。 需求 是 最 大 化 传送 到 系统 输出 至 的 关于 系统 输入 忒 的 信 
* 在 10-2b 描 绽 的 情况 2， :对 输 和 向量 X, AX, 是 从 相 邻 但 不 重合 的 图 像 区 域 截取 而 
来 。 各 自 产 生 的 纯 量 输出 分 别 是 了 ,和 了 ,。 需 求 是 最 大 北 传 送 到 Y, MKT Y, 的 售 
息 ， 以 及 相反 的 需求 。 

。 在 图 10-2c 描绘 的 情况 3, BAR EX, AX, 是 从 两 幅 不 同 的 图 像 相 应 部 分 截取 而 
来 。 各自 产生 的 输出 分 别 是 Y, MY,, RAR IMS 了 的 关于 了 的 信息 。 

。 在 图 10-2d 描绘 的 情况 4， 输入 向 明 处 和 输出 向 量 Y SPS 10-2a 定义 的 形式 相似 ， 但 
有 相同 的 维 数 ( 即 i = m)。 这 里 的 目标 居 使 输出 向 量 于 的 各 分 量 之 间 的 统计 依 靖 最 
4h, 

在 所 有 的 这 些 情况 下 ， 互 信息 扮演 中 心 的 和 角色 。 查 是 ， 它 的 推导 过 程 还 是 要 根据 所 考虑 
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Re A (CFS 3K Fi WY 的 关于 X 
PRA 








了 1 

Yo | fg 了 之 
Je) A Ee Fr a 

r 


a) d) 









2 hg 
最 大 化 传送 到 了 WEE y 


Aam © ” REEE SY, 的 关于 
Xy r 的 信息 ， 或 相反 Y, RA, RHR 
zi | 4 Ny iol 
Xa A pn 
b) c) 


图 10-2 适用 于 Infomax 应 用 及 它 的 二 个 变 体 的 四 个 基本 情况 
的 具体 情况 而 定 。 在 本 章 余下 的 部 分 将 以 刚才 多 FY AUP Te Be A ioc He eS fe] BB E 
10.7 最 大 互信 息 原 则 
讽 计 一 个 神经 处 理 器 使 互信 息 TY;%) 最 大 的 思想 作为 统计 信和 号 处 备 的 基础 是 吸引 人 人 


有 的。 这 种 优化 方法 在 Linsker{ 1987, 19884. 1989a) 提 出 的 最 大 互信 息 (maximm mutual information 
(Tafomax) } 原则 中 得 以 体现 ， 已 可 正式 陈述 如 下 ， 


从 神经 系统 的 输入 层 观 测 到 的 随机 向 量 尺 到 系统 的 输出 层 得 到 的 随机 向 量 卫 之 间 的 变 
换 应 该 这 样 选 择 ， 这 种 变换 使 得 输出 晨 神 经 元 的 活动 共同 最 大 化 关于 输入 靶 神经 元 的 活动 的 
信息 。 最 大 化 的 目标 沽 数 是 向 量 旷 和 守之 间 的 互信 息 I(Y;X), 


琉 太 互信 息 原则 提供 一 个 解决 如 图 10-2a 所 描述 的 信息 传输 系统 自 组 织 的 数学 框架 ， 它 
独立 于 实现 它 所 使 用 的 规则 。 同 样 ， 这 个 原则 也 可 以 看 作 信 道 容量 这 个 概念 在 神经 网 络 中 的 
对 应 物 ， 信 和 道 容量 定义 为 通过 一 个 通信 和 信道 的 信息 传输 率 的 Shannon 极限 。 

i PK, 我 人 给 出 两 个 涉及 有 了 噪声 的 单 神经 元 的 例子 说 明 最 大 互信 息 原则 的 应 用 。 在 一 
个 例子 中 虹 声 出 现在 输 册 端 ， 而 在 另 一 个 例子 中 噪声 出 现在 输入 端 ， 

例 10.4 ”被 处 理 噪声 破坏 的 单 神经 元 考虑 线性 神经 元 的 简单 情形 ， 假 设 系统 从 om 个 
描记 点 接受 输 人 。 令 该 神经 元 的 输出 中 出现 处 理 噪声 ， 上 林 表 示 斩 


Y = (Salen (10.46) 


其 中 w, ASB i PRR, NAAR, AR 10-3 所 示 的 模型 ， 假设 : 
* 输出 了 是 一 个 以 方差 为 oy 的 Gauss 随机 变量 ， 
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*。 处 理 了 噪声 N 也 足 一 个 Causs EHLE Y, 
HEL 0, AHA dno 
* KEMBRE Ny RA fu) fee a Efe] — Pap be 
BAH, they 
E| NX, | = 6 对 所 有 的 i 
输出 子 的 高 斯 性 可 以 用 两 种 方法 之 一 得 到 满足 。 
输入 Xo XÆ, o, Xa 全 部 是 Gauss Ahin ig, 4 
(RSA E N 也是 高 斯 的 ， 则 了 的 丙 斯 性 
可 以 保 让 ， 这 是 由 于 一 组 Gauss 分 布 的 随机 变量 图 10-3 单个 噪声 神色 元 的 信号 流 图 
PMA AE eT. BRA A’ A, 
Xa eae la, AE m TRACER PAG a PR eT A A ASF Gauss 分 布 。 
为 了 进行 分 析 ， 我 们 首先 注意 在 式 (10,30) 的 上 第 二 行 ， 输 入 问 量 X SAh Y 之 间 的 
Sia ICY; X) 是 





i(¥;:K) = ACY) - ACY 1X) (10.47) 
根据 去 (10.46)， 注 意 在 已 知 输入 问 量 和 的 情况 下 ， 输 出 了 的 概率 密度 图 数 等 于 一 个 前 煞 加 
-一 个 Gauss 分 布 的 随机 变量 的 概率 密度 明 数 。 因 此 ， 条 件 炳 让 了 1IX) 是 由 输出 神经 抱 传 送 
的 基于 处 理 噪 声 N 而 不 是 同 量 XAG. RETA RS 
ACY |X} = A(N} 
因此 式 (10.47) 可 以 重新 简化 为 


KY:X) = ACY) — ACN) (10.48) 
应 用 式 (10.22) 关 于 Causs PEILE St AY ik AE HATAS, FR PS 
ACY) = sl 1 + josgt2rcy )] (10.49) 
和 nN) = [1 + log(2x0% )] (10.50) 
PEST. ESR C10.49) FIR (10.50) RA sR (10.48 978 
ay 
I(Y;X) = 二 | 号 (10.51) 


其 中 o, 依赖 于 os. 
比值 myey DAR, (RRR oy AMENAR AIT, AClOS5D At ATES 
ICY; Xi Hoc Y WT oo, 的 最 大 化 而 成 为 最 大 化 的 。 因 此 可 以 这 样 说 ， 在 一 定 的 
条 件 下 ， 使 神经 元 输出 的 方差 最 大 化 也 就 是 使 神经 元 的 轩 出 信 坊 和 和 它 的 输入 之 间 的 互信 息 最 
AL Linsker, 1988a)。 Bi 
610.5 SSRI AR RIGA BPA Rigas Be A A Te hk 
林 端 的 线性 神经 元 的 行为 ， 如 图 10-4 所 示 ， 根 据 这 第 二 个 噪声 模型 我 们 有 


Y= >)w(X+N,) (10.52) 
ESI 


其 中 假设 每 个 N, 是 一 个 独立 Gauss MILER, RAO, FHA o RITES 
(10.52) 改 写成 类 似 式 (10.46) 的 形式 |; 
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mt Ay m m 
¥ = (> w, A ) + N’ i 
Ep N ERB spe Ba, EA N; 
噪声 W 足 一 个 Gauss 分 布 ， 其 均值 为 0， 方 差 为 所 Ny 
A Pop et EA; 即 是 . 
与 前 类 似 ， 我 们 假设 神 台 < 元 的 输出 变量 YEDE Ko 4 
Ai oy BY Gauss 78. Y 和 入 之 间 的 互信 息 IHY; i 
DHEALT Ae, ME, aA Npa 
ACYIX) MF: 图 10-4 S .个 噪声 模型 
ACY | X}= ACN’) 
= ae + nOr ) (10,53) 
= sli + 270 3 w? | 


这 样 ， og 可 得 (Linslker 1988a) 
VS a ti ar :0.54 
4 ) 一 y oF : Dow (a + ) 


EAR oy REF TW ATE PB. CYS XB RAE of JO wi BAL, EHP of 
是 ww PRX. a 

我 们 可 从 例 10.4 和 例 10.5 推 由 什么 绪论 首先， 从 给 出 的 两 个 例子 可 以 看 出 ， 应 用 最 
大 精 原 则 的 结果 依赖 于 问题 。 对 于 给 定 唆 声 方 差 吕 ， 最 大 化 互信 息 ICY: X) 和 应 用 于 图 10-3 
的 模型 输出 的 方差 之 间 的 等 价 ， 并 不 能 直接 转 到 图 10-4 的 模型 。 只 有 当 对 图 10-4 的 模型 加 
EÐ wi = 1 的 约束 时 ， 图 10-4 和 图 10-3 所 代表 的 模型 才 有 相似 的 行为 。 

iL. HERA X Sethe YR Rae IY; XBR ERS, 4 H 
10.4 和 例 10.5 R.A Sa bo, RMR ASS oe PRS TRA 
多 元 Gaus 分 布 。 这 个 假设 需要 说 明 其 合理 性 。 

HRH Gauss 唆 声 模型 时 ， 本 质 上 是 采用 生 信 息 的 一 个 蔡 代 ， 其 计算 的 前 提 是 神经 元 的 
WEE YY 是 一 个 均值 向 量 和 协 方 差 失 隆 都 与 实际 情况 相同 的 多 维 Gauss 分 布 。 在 Linsker 
(1993) 中 ， 利 用 Kullback-Leibler 散 度 提供 对 于 这 种 条 件 下 的 替代 互信 息 的 一 个 原则 性 理由 ， 
这 些 都 假设 网 络 蕊 经 存储 关于 输出 向 量 Y ASR AAS SAMA BRET. 

最 后 ， 在 例 10.4 和 例 10.5 给 出 的 分 析 情 说 只 是 对 于 一 个 神经 元 进行 的 。 有 意 这 样 做 是 
意识 到 : 为 了 最 大 互信 息 原 则 在 数学 上 易于 处 理 ， 最 优化 应 该 在 局 部 神经 元 级 进行 。 这 种 优 
LAG DAA AIR. 

110.6 在 例 10.4 和 例 10.5 >, SR CPAR RS HHA, ERA PRR 一 个 无 

[502] WEF AURIS, CREEA tr ORE X EROS TRO RAL Y, SER I(X;Y) = I(Y;X), 
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FEHER Ps 10.28), o AWA XAR Y BIN Se AIA A 
{(¥:X) = HCY) - ACY | X} 
其 中 WOVE YR, ACVIX) ER EA X AAP YAH. (RIAA X BY BYR 
AMSA, SAPS Aa) Ao] REM: ERRA- a, GRR PE 10.2 THE IESE AL 
Be Be SY a PS CE BY DARA, MH, SRR ICY; XO MBSR SAR 
FER W 的 梯度 时 ， 这 个 困难 并 不 造成 什么 后 果 。 特别 是 ， 我 们 可 以 写成 
IKY:;:X) AFC) 


SS Fer 


IW dW 
因为 条 件 靖 与 W 独立 。 式 (10.55) 表 明 ， 对 于 一 个 无 噪声 映射 网 络 ， 最 大 化 输出 立 的 炳 就 等 
于 最 大 化 Y 和 网 络 输入 四 之 间 的 三 信息 ACXS Y), WERTERA RARE WOR AL 
(Bell and Sejnowski, 1995), T 


10.8 最 大 互信 息 和 元 余 减 少 


在 Shannon AA BEER R, PAAR RIS, PRES 方 对 信息 分 辨 的 不 确定 
性 .在 固有 过 程 中 我 们 拥有 的 序 和 结 侈 越 多 ， 则 观察 这 个 过 程 我 们 获得 的 信息 量 就 越 少 。 例 
如 考虑 丙 度 结构 化 和 元 余 的 序 州 aaaaaa。 一 号 得 到 第 一 个 样本 e， 则 我 们 就 可 以 立即 知道 
其 余 后 面 五 个 都 是 一 样 的 a。 这样 的 一 个 序列 所 传递 的 信息 的 极限 是 单个 符 导 传递 的 信息 
量 。 换 可 话说 ， 样 本 序列 的 元 余 越 大 ， 从 环境 中 获取 的 信息 内 容 也 就 越 少 。 

从 互信 息 夫 Y; 筷 ) 的 定义 ， 我 们 知道 这 是 对 一 个 系统 在 已 知 笨 和 人 为 系 时 ， 对 输出 站 的 不 
确定 性 的 度量 。 最 大 互信 息 的 方法 是 使 二 信息 1(Y; 处 }) 最 大 ， 其 结果 是 我 们 在 观测 到 输入 为 
X 时 ， 对 系统 输出 立 增 加 确定 性 。 考 碟 到 前 面 提 到 的 信息 与 元 余 之 问 的 关系 ， 因 此 我 们 可 
以 说 ， 最 大 互信 息 原 则 导致 与 在 输入 六 中 的 元 余 比 较 而 言 减 少 输 中 Y 中 的 元 余 。 

陈 再 的 出 现 是 推动 使 用 元 余 以 及 相 异 性 (diversity) 相 关 方 法 的 一 个 因素 {Linsker， 1988a) - 
i aS PE eT, PTT A A eR a ea, PERO, i 
Ma Zl PRE) A AE OR, LRA BRO, RE, 54 
vig ASMA pat CE) Ach A BE eR AY , h BE Se ee Ay at A TAME a E aN 
测 妈 的 相互 独 空 的 属性 也 相应 地 减少 了 ， 但 各 个 属性 表示 的 精确 度 反 而 提高 了 。 因 此 我 们 可 
LA: SRE M RE eA PRR ae, HE, SRP KP RIAM, REMAN 
ee oF], RNA Resear eA Re TAA AEA e I, Set 10.6 讨论 
的 元 余 / 相 异性 的 折 中 是 由 最 大 互 依 息 观点 得 来 的 。 值 得 一 提 的 宛 余 / 相 异 性 折 中 与 第 2 章 提 
到 的 偏 署 /方差 折 中 是 类 似 的 。 


感知 系统 建 模 


目 从 信息 论 的 早期 ， 就 提出 了 感觉 消息 (刺激 ) 的 元 余 对 感知 理解 非常 有 用 (Attneave， 
1954; Barlow ,1959)。 司 觉 消 上 县 的 元 用 提供 了 人 脑 建立 其 周围 环境 的 “ 认 知 师 射 ”或 "工作 模型 ” 
(Barlow,19891 。 在 感觉 消 且 中 规则 必须 以 革 种 方式 缸 人 脑 编码 ， 使 它 知道 什么 经 常 发 生 。 但 
E, WAR SE Barlow 假设 的 特定 形式 。 这 个 假设 说 早期 处 理 的 目的 是 将 高 元 余 的 感觉 输入 
转化 成 更 有 效 的 析 因 码 (factorial codej。 换 句 话 说 ， 在 输入 条 件 下 使 神经 元 输出 统计 洗 立 。 

= Barlow 假设 的 启发 ，Atiek and Redlieh(1i990) 提 出 把 最 小 宛 余 原则 作为 如 图 10-5 所 示 的 





(10.55) 
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SUS 


感知 系统 的 依 昌 论 模型 的 基础 。 本 nian E LEEN 输出 通 
道 。 笨 人 通道 的 得 出 可 以 埠 示 测 
A- SN, 

FAP OS 是 输入 通道 接收 到 的 理想 信和 与 ，MN, 
候 设 为 输入 中 所 有 隧 声 的 源 。 池 后 信和 与 六 
RATERS T AZ E), Ale | ~ 
过 视 党 神经 或 输出 道道 传输 ， 产 生 输出 Y. ( 视觉 神经 ) 





表示 为 图 i05 感知 系统 模型 、 信 号 向 量 s 和 噪声 
Y=- AX+N, As vy, My, 分别 旦 随机 向 量 8，N FON, 的 值 


其 中 N, 4a Ja SA SAMAR, FE Atick 

Al Redlich 的 方法 中 ， 观 察 到 达 视 网 膜 的 光 信 号 包含 一 些 非常 有 用 的 高 责 余 形式 的 感觉 信息 。 
进一步 候 设 在 信号 沿 视 觉 神经 发 送 以 前 视网膜 信号 处 理 的 自 的 就 是 减少 或 消除 由 于 互相 关 性 
PRES SOR AERC ONT ee A, PAP RE TF 


ACY;S) 
ne be ov) 


其 中 TY;S) 是 下 和 之 间 的 互信 息 ，C{Y) 必 视觉 神经 (输出 通道 ) 的 信道 容量 。 式 (10,56) 
的 合理 性 基于 人 脑 感 兴趣 的 信息 是 理 很 的 输入 信号 S， 但 是 信息 必 有 贫 经 过 的 物理 信道 实际 上 
是 饥 党 神经 。 假 设 在 感知 系统 完成 的 输入 与 输出 映射 之 疝 没 有 维 数 城 少 ， 这 意味 着 C(Y) > 
KYS 要求 找到 一 个 输入 - Ft a CBE A) 使 元 余 度 度 量 R 达到 最 小 日 满足 不 丢失 
HARAR, HURRAH 


(10.56) 





FOV;X%) = FCK:X} -e 

其 中 8 是 一 个 很 小 下 参数 。 人 和 信道 窜 量 〔C(TY) 定 多 为 保持 平均 输 人 能 量 固定 的 条 件 下 和 对 所 有 
应 用 于 它 的 输入 的 构 率 分 布 ， 可 能 流 过 视觉 神经 的 最 大 信息 率 。 

当 信号 向 量 $8 和 输出 向 量 立 有 相同 的 维 数 和 系统 存在 噪声 时 ， 最 小 元 余 度 原则 和 最 大 
孔 信 息 原 则 是 数学 上 等 价 的 ， 具 要 假设 在 两 种 情况 下 输出 神经 元 计算 能 力 的 约束 相同 。 具 栖 
HR. (RR DEES 10-5 的 模型 中 信道 容量 的 度量 取决 于 每 一 个 神经 元 输出 的 动态 范围 。 那 么 ， 
根据 最 小 元 余 度 原则 ， 对 于 一 个 给 定 的 介 许 信息 丢失 ， 以 及 从 而 对 于 一 个 给 定 的 YS), 
需要 最 小 化 的 量 定义 为 


TI(Y:S) 
i i(S) 


因此 ， 这样 最 小 化 的 量 本 奈 上 为 
FEY:S) = CCV) — AT(Y:S) (10.57) 


AFH. WERKLAS SRM, ÆR 10-5 的 模型 中 需要 最 大 化 的 量 为 
FY;S) = TY;S) + ACCY) (10.58) 
RARAS FYSA (TS) 并 不 祖 同 ,但 是 它们 的 最 优化 产生 相同 的 结果 :， 它们 都 是 
Lagrange FEF TRAV ASK, BOA ICY; SDA CC 名 简单 地 互 换 了 前 色 ， 
从 这 些 讨 论 中 注意 到 这 样 一 个 重要 的 观点 ; 虽然 公式 不 同 ， 但 是 这 两 个 信息 论 的 原则 产 
生 相 伏 的 结果 。 总 的 来 说 ， 一 个 神经 网 络 输入 和 输出 之 癌 的 互信 息 的 最 大 化 确实 可 以 导出 宛 
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PEMA, 
10.9 空间 相干 特征 


在 10.6 节 中 提出 的 最 大 互信 息 原则 ， 主 机 应 用 于 如 图 10-2a 且 示 的 情况 下 ， 神 经 系统 的 
fai HH [cl ae Y Ala A fol se X ZI ofa 7(Y; 和 及) 作为 一 个 求 最 大 位 的 目 慰 阴 数 。 在 术语 上 作 
过 当 改 变 ， 我 们 可 以 将 其 扩展 到 目 然 太 物 图 像 的 无 晓 督 公理 中 (Becker and Hinton, 1992). 一 
个 末 处 理 的 图 像 的 像素 ， 虽 然 形 式 很 复 薪 ， 但 是 包 售 我 们 感 兴 趣 的 景物 的 丰富 信息 、 特 别 
是 ， 每 个 像素 的 密集 度 爱 内 在 参数 的 影响 、 鲍 如 竣 度 RAY. REA lel Pp RE LL ARH 
度 。 日 的 就 是 设计 一 个 日 组 织 系统 ， 能 够 学 习 将 这 种 复杂 的 信息 编码 成 一 种 简单 的 形式 。 更 
具 恒 一 点 ， 上 日 标 就 是 从 这 个 图 像 中 提取 能 够 展现 该 图 像 空 间 相 于 的 高 阶 特征 ， 使 得 在 图 像 的 
空间 局 部 区 域 的 信息 志 示 很 容易 产生 邻近 区 域 的 信息 表示 ; 区 域 是 指 图 像 中 的 一 组 像素 的 集 
合 。 这 种 描述 的 情况 属于 图 10-2b 的 场景 。 

因此 我 们 可 以 将 最 大 互信 息 原 则 的 第 一 个 变 体 "说 明 如 下 {Becker, 1996; Becker and 
Hinton, 1992), 


AS OE X, PX RASA RAE HH BRI) ER eh it HR, 
dE ITA X, 对 应 的 纯 量 输出 了 RAIA, 对 应 的 纯 量 输出 Y 的 信息 。 最 大 化 的 目标 函 
AREE F, 和 了 ela BEB ICY: ¥,). 


我 们 称 此 为 最 大 互信 息 原则 的 变 体 ， 意思 是 指 它 并 不 各 最 大 互信 息 原 则 相等 价 或 能 够 从 
其 挫 守 出 来 ， 伺 必定 以 相似 的 精神 起 作用 。 





图 10-6 按照 最 大 互信 息 的 第 一 个 变 体 处 理 图 像 的 两 个 邻近 区 城 


进一步 我 们 考虑 图 10-6 所 示 的 情况 ， 有 两 个 神经 网 络 { 模 型 )a 和 83， 分 别 接受 输入 为 

X, 相处 ,， 来 日 同一 图 像 中 相 叶 的 不 重 香 区域 各自 的 纯 量 输出 分 别 是 Y, MY, OS RA 

Y, WY, 中 共同 信号 分 量 ， 它 是 原始 图 像 的 两 个 相关 区 域 的 空间 相干 性 的 表示 。 我 们 可 以 将 
Y, $Y, 看 成 共同 信号 $ RA, 表示 为 

7 = S4N, (10.59) 

种 Y=S+N, (10.60) 

N, FON, 是 加 性 噪声 分 量 ， 假 设 为 统计 独立 的 零 均 值 Gauss 分 布 随机 变量 。 信 号 分 量 S 也 假 
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设 为 Gauss 分 布 的 。 根据 式 (10. 引 ) 和 式 (10.90)， 在 图 10-6 PREI a Ald RIAA. 
利用 式 110.30) 的 最 后 一 行 ， 了 AY, 的 互信 息 定 疼 为 


NYSE) = h(EF)+ A(Y,)- ACYL, Y) (10.61) 
根据 式 (10.22) 关 于 Gauss EALE SAE, Y, RACY A 
ACYL) = yll + log(2x0%) ] (10.62) 
其 中 号 是 HAS. PY, ON 
ACY,) = ELI + log 20%) ] (10.63) 
Bag, EY, 的 方差 。 BRAM h(Y,，Y,}， 我 们 利用 式 (10.24) 得 
ACY, ,¥,) = 1 + log(2n) + Flog | det() | (10.64) 
2 x 2 As SY, AY, WEAR, EM 
S, Pap Ty Ts 
> =- i (10.65) 
Daha Fy af 


HP p EY, MY, 的 相关 系数 ;也 就 是 
_ ELCY, - ELY DÈY, - ELY,])] 


Dap “ord (10.66) 
TEASE RE D RIFIAA 
det(X) = Žo (I - py) (10,67) 
并 且 我 们 可 以 将 式 (10.64) 重 写 为 
RCY, Ys) = 1 + log(2n) + 3log[ oA (1 - os) (10.68) 
HEE (10.62), (10.63) MIzt( 10.68) (RAE (10.61), #4 
iY,;¥,) =- log(I 一 Oa ) (10.69) 


从 式 (10.69) 我 们 立即 推出 ， 最 大 化 互信 息 IY, ; 8 ) 等 价 于 最 大 化 相关 系数 ob。 这 从 直观 上 
看 也 是 潢 足 的 。 注 意 ， 内 paw, Ipal cl. 

最 大 化 TY,:;Y) 可 以 看 作 统 计 学 中 求 标 准 相 关 的 非 线性 推广 (Becker and Hinton, 1992). 
给 定 两 个 输入 问 量 (刺激 ) 及 ,和 四, {不必 有 相同 的 维 数 )， 和 和 相应 的 有 两 个 权 向 量 w, A w, 
标准 相关 分 析 的 目的 就 是 指 找到 一 个 线性 组 合 Y= we X, 和 了 = Ww 壬 ,， 和 使 它们 之 问 的 相关 
性 最 太 (Anderson,1984)。 最 大 化 HY.: 了 ) 为 标准 相关 分 析 的 非 绑 性 推广 ， 晟 由 于 图 10-6 中 
俐 经 网 络 内 构 模 所 设计 的 非 线 性 。 

在 Becker and Hinton(1992) 中 ， 演 示 了 通过 最 大 互信 息 K ;可 以 从 一 个 随机 体 视 点 
图 中 提取 体 视 不 均衡 性 (深度 }。 这 是 一 个 很 困难 的 特征 提取 问题 ， 不 能 由 一 个 一 屋 或 线性 神 
经 元 网 络 来 解决 。 


10.10 空间 非 相 于 特征 
在 前 面 一 节 里 我 们 讨论 了 一 个 无 监督 的 图 像 处 理 过 程 ， 它 从 一 个 图 像 中 提取 空间 相 于 特 
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— —— ———— —<—__ _ SS SS 


fk. AERE Tie BabA Ae. SR bi, “SRB 10-2c， 其 中 目的 基 增 强 从 两 个 
不 同 图 像 中 抽取 相应 区 域 的 室 间 差异 。 在 图 10-2b 中 ， 我 们 是 求 模 块 输出 间 的 互信 息 最 大 
化 ， 在 图 10-2c 中 我 们 做 相反 的 工作 。 

因此 我 们 可 以 将 最 太 互 信息 原则 的 第 二 个 变 体 ， 陈 述 如 下 (Ukrainec and Haykin, 1992, 
1996}: 


A a TY PR A Be) RAR OG BE Ve aA E X, Fo X,, RRS ETH 
变换 的 选择 应 该 使 得 输入 K, 对 应 的 系统 纯 量 输出 了 关于 输入 X, 对 应 的 系统 纯 量 输出 了 信 
筷 最 小 。 最 小 化 的 目标 函数 是 输出 Y, 和 YY 之 间 的 互信 息 (YY; YY)， 


同样 在 这 里 我 们 称 之 为 最 大 互信 息 原 则 的 变 体 ， 意 思 是 指 它 并 不 和 最 太 于 信息 原则 等 价 
或 能 够 从 其 推导 出 来 ， 查 必定 以 相似 的 精神 起 作用 0 。 

好 大 互 机 信息 夭 则 的 第 二 种 变 体 在 雷达 偏振 测定 (radar polarimetry ) 方面 有 所 应 用 。 雷 达 
红 视 系统 产生 一 对 (或 更 多 ) 我 们 感 兴 趣 的 环境 的 图 像 ， 利 用 在 一 个 杞 振 方 向 上 传送 ， 在 相同 
惑 不 同 候 振 方 问 接收 得 到 反 癌 散射 。 偏 振 可 以 在 牌 直方 向 ， 也 可 以 在 水 平方 向 上 。 合 如 ， 我 
们 可 能 有 两 幅 电 达 图 像 ， 一 幅 图 像 代 表 相 疝 方 向 (水 平 - 水 平 ? 的 偏振 ， 而 另 一 幅 为 交 忆 方向 
OKE -ÆR tie. REA AN cH Ukrainec and Haykin( 1992 1996 提出， 属于 在 一 个 双 仿 
振 雷 达 系 统 中 的 偏振 目标 增强 。 研 究 中 雷达 景物 的 采样 描述 如 下 。 在 一 个 非 相 干 雷 达 以 水 平 
tite OR. 在 垂直 和 水 平 偏 振 频 道 接收 雷达 返回 。 感 兴趣 的 目标 就 是 设计 一 个 雯 件 偏 拓 
$f Hi BZN ae HERES tie Ee 90 度 。 在 普通 的 雷达 系统 操作 中 ， 这 样 一 个 日 标的 探测 是 非 
请 困难 的 ， 既 因为 雷达 系统 的 缺陷 也 因为 地 面目 标 会 发 生意 想不到 的 偏振 ， 并 反射 回来 产生 
杂 波 (clutter)。 我 们 发 现 需要 用 一 个 非 线 性 映射 来 解释 普通 雷达 返回 结果 的 非 Gauss 分 布 。 
月 标 增强 问题 变 为 涉及 约束 二 次 函数 最 小 化 的 求解 问题 。 最 终结 果 是 一 个 处 理 后 的 交 义 偏振 
AR, ERA IA RR ARE. MB LRN REO ROSH 
PER AGAR REGS. ARMM AAS SE eee ti ERA L 
作 ， 所 以 Ukraire 和 Haykin 提出 的 模型 对 变换 后 的 数据 假设 是 Gauss 统计 分 布 的 。 两 个 Gaus 
Se Y, MY, 的 互信 息 由 式 (10.61) 定 义 。 为 了 学 习 两 个 模型 的 突 触 权 值 ， 采 用 了 变通 的 方 
A. SOK nl ASI. SKF te Ee a KARE EL. YT RAKE 
求 ， 最 小 化 互信 息 I 了 ;了 )， 满 是 下 面 加 在 权 值 向 量 的 约 东 条件; 


P = (tl WW] 1: (10.70) 
其 中 WERNA EIER, ti. lE EAER mE 
Wil Yi Y) + aVyP = 0 (10,71) 


RA, FRNA SB ae, BO Re. A SRB | 
值 。 在 第 4 章 讨论 拟 牛 顿 方法 。 

图 10-7 显示 Ukrairee and Haykin( 1992 ,1996) 所 用 的 神经 网 络 结 构 。 对 每 个 模型 选择 一 个 
Gauss 径 问 要 函 数 网 络 (RBF)， 这 基因 为 它 可 以 提供 一 系列 的 固定 基 薄 数 的 好 处 { 即 ， 有 一 个 
不 自 于 应 隐藏 层 )。 输 入 数据 在 基 肾 数 上 启 升 ， 然 后 通过 谎 性 权 值 屋 相 结合 ; 在 图 10-7 中 的 
Hee (te PAP IR [a AE RRA PEGE, Gauss AH Pd ee x A EEE UE eB 
全 部 输入 区 域 ， 它 们 的 宽度 选择 庶 用 启发 式 规则 。 图 10-8a ER- TEE ARR Rt 
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公园 的 水 平 极 化 和 垂直 极 化 的 雷达 图 像 。 每 一 幅 图 像 的 范围 坐标 是 沿 水 平 轴 的 ,从 左 到 右 
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图 I0-7 Pekama, a5 Be AA RRE AET EA 
输入 抑制 背景 杂 被 ; 杂 波 抑制 由 最 小 化 两 个 模型 输出 的 互信 息 来 达到 





_ RB RL at 
图 10-8 中 未 处 理 的 B - AAR A E 图 10-8 b) 最 小 化 图 10-80) 8 Be OB tie BB iA 
对 比 1， 水 平 - 水 平 偏振 [上 ) 和 永 平 - EA Pte HE MATS. Tee aS ee 
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递增 ; Jit ee. K 10-8b ans ie) R EME BR OR E ER AS E 
AR W2A AEE. —A ER AM AR a EER h AT Oe oe, E SEAR R AMARTE I — 
PATE tin the 7H H Be ST mR TA. A ERRERA ACR 9 Zee ER TEREC H E S EAE H 
EA RA D 7% BARE 4 BEC Ukrainee and Haykin, 1992, 1996). 


10.11 独立 分 量 分 析 


现在 我 们 将 注意 力 集中 在 由 图 10-2d 描述 的 最 后 场 綦 。 为 了 使 那里 陈述 的 售 导 处 理 问 题 
WIEHE, FER 10-9 的 方 框 狗 。 操 作 从 一 个 随机 源 向 量 U(n) 开 始 ， 其 定 这 为 
U = 术语 ,人 

其 中 严 个 甸 量 是 由 一 列 狐 立 沽 提供 的 。 这 里 考虑 时 间 序 列 ; 因而 这 里 的 n RAR, 
问 是 届 应 用 到 一 个 线 忻 系统 中 ， 其 输入 输出 之 问 的 关系 直 一 个 非 柯 异 的 让 xm 的 称 为 混合 
SEER A RE, RE E-A E Xin), CAUMA FOLE 10- 10a)， 

X = AU (10.72) 1510| 
ET K=[%,,X,.°,X, ]°. WAE U RAIER A 部 是 未 知 的 ， 我 们 所 知道 的 仪 仅 是 观测 
HEX, 45K 其， 问题 是 找到 一 个 分 离 短 阵 ( demixing matrix) W, ERMAR h o BE Y HB RK 
复 源 阿 量 UC ALAS 10-10b)), BMY 

Y= WX (10.73) Lu, 
其 中 说 = [YY 了,…,Y] :通常 假设 源 信 全 上 ,UU,,…,U RBERMA. ETI IRI H X, 
Xo. Xn 了 岂 是 均值 为 零 的 信号。 对 分 离 器 的 输出 驴 , 卫 ,… ,YY 也 同样 如 此 。 





图 10-9 用 于 腹 源 分 离 问 题 的 好 理 器 方 框图 
Blau, x Py THEA SU, KM YKE 


观察 向 是 | 


x x 





图 10- 10 HAE 
DREGER bia eK 
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372 #10 = 
我 们 可 以 定 党 育 源 分 离 问 题 如 下 ， 
UL ee KA ON Sakae BL, -- POR SABE A hag sit. 


ROT i Ee AS ee) Fa AN Pe) Pe TE HE AY a OX AERA RHA ES 
QOS AF Ee ASE, SE te oT ee A, (ER ap SR AE OEE a 8 
Mtie Esa AN A a BT TA) 5 FR 45 FY ( Cardoso, 1998a) . 

这 种 方法 用 于 省 源 分 离 问 题 是 可 行 的 ， 除 了 每 个 信和 号 成 分 有 一 个 任意 尺度 的 变动 ， 以 及 
你 所 的 首 换 。 也 就 是 说 ， 可 以 找到 一 个 分 离 矩 阵 斑 ， 它 的 每 个 列 是 混合 短 阵 A 中 的 某 列 的 
ARAME -个 比例 勾 数 ， 这 种 方法 可 以 表达 为 

Y= WA = WAU— DPU 

HE., KP De — PSE a ee Ae, PARRER, 

TEX BT Fig 28 A |] a AE BRO CS RS le ， 其 中 使 用 * 育 "这 个 术 话 是 指 用 
于 恢复 原始 信号 的 仪 有 信息 包含 在 观测 向 量 入 的 实现 中 。 在 它 的 解答 中 内 在 的 原则 是 独立 
Sy #5) 47 (independent components analysis, ICA) (Comon, 1994)}， 这 可 以 看 必 是 主 ay & 4p af (PCA) 
的 一 个 拓展 。 而 PCA 强制 到 至 多 为 二 阶 独立 的 ,而 且 向 量 的 六 向 限制 为 止 交 的 ， 而 ICA 对 
于 输出 向 量 Y 的 单个 分 量 限制 为 统计 独立 ， 并 日 没有 下 交 性 的 限制 。 在 实际 中 还 应 注意， 
TR oP BS} PT BY SC A AEA BAS) BESET Se”. 

企 多 种 应 用 中 都 出 现 育 源 分 离 问 题 ， 包 括 以 下 几 种 情况 : 

。 语音 分 离 。 这 种 应 用 中 向 量 % 由 一 些 诸 音信 和 号 通过 线性 混合 而 成 ， 要 求 就 是 将 它们 
4p tH ( Bell and Sejnowski, 19951.， 这 种 情况 的 困难 形式 ， 例 如 ， 出 现在 电视 会 议 环 
境 。 

。 阵列 天 线 处 理 。 在 第 二 种 应 用 中 ,向 量 x 代表 由 一 个 漠 达 阵列 天 线 产 生 的 输出 ， 它 
NOR BAY tot AY ie Ze ROY FE AR eB pe { Cardoso and Souloumia, 1993: 
Swindlehurst et al.,1997), MEME ORAS RWS. PEAR SRE — AeA 
HA Ss, “ERA m ERRAR.) 

* SRASEMEFIOR, ERB AWAY, mix SAS Mees 
eat PA ic oe A. PAG, BE OR BY BE SB MBE R AY Bk PR 4 eo A JL 9 ot BE 
( Cardoso, 1998b) 。 

。 金融 市 场 数 据 分 析 ， 在 这 种 应 用 中 ， 同 其 x 由 一 系列 不 同 的 证 券 市 场 数 据 组 成 要 
RRS EY CEPA Sb vy ALS} (Back and Weigend,1998)。 

人 在 这 些 应 用 中 ， 盲 源 分 离 问 题 可 能 因为 下 列 原因 更 复杂 : 可 能 存在 未 知 传播 延迟 ， 它 们 

的 环境 强加 于 源 上 的 扩展 滤波 以 及 观测 向 量 x 难免 混入 的 噪声 。 这 些 损 宕 意味 着 (很 不 幸 ) 在 
(10.72) 所 摘 述 的 瞬时 混合 的 理想 信和 全 在 现实 性 界 上 很 少 下 到。 但 在 下 面 的 讨论 中 ， 为 了 对 
让 潘 分 离 问 题 的 基础 理论 有 一 个 清楚 的 认识 我 们 将 忽略 这 些 损害 。 


统计 独立 准则 


由 于 对 育 源 分 离 输出 向 量 Y 的 分 量 期 疹 共 有 统计 独立 的 性 质 ， 我 们 能 用 什么 度量 二 测 
RARE? .个 明 呈 的 可 能 性 是 对 组 成 输出 向 量 立 的 任意 两 个 随机 分 量 了 AY, AU EAT 
WERA Y 了)。 人 在 理想 情况 下 ， 当 1(Y; YAS, Y, AY, 统计 独立 。 因 此 这 将 意味 
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eet AL ea HE Y ORES LAS OY 和 了 ， 最 小 化 它们 的 互信 息 KY; 5) TB 
标 等 价 于 最 小 化 下 列 两 个 分 布 的 Kullback-Leibler AE: OEE ERE RR fy, WE W 参数 
化 ; 《2 相应 的 析 因 分 布 定 交 为 

fey. W) = TEA, GW) (10.74) 
其 中 fy Cy. WEY, 的 边缘 概率 密度 两 数 。 实 际 上 (10.74) 可 以 看 作 是 加 在 学 习 算 法 上 的 约 
R, PRAY WS 六 (7, 且 ) 分 开 。 我 们 可 以 将 最 大 互信 息 原 则 的 第 二 种 变 体 陈述 如 
F (Comon, 1994) : 

给 定 一 个 mx Me X, CHR m PETRIE HM AR A HARARE A 
Qe XX RR hee Y, ARM Mea, BAERE Aly, W)) Stew 
HATA f(y, WZ Kullback-Leibler REX FARA W 最 小 化 。 

这 里 所 描述 的 用 于 问题 的 Kullback-Leibler 散 度 在 10.5 节 已 经 考虑 。 我 们 要 找 的 公式 册 
式 (10,44) 给 出 。 应 用 该 公式 到 目前 这 种 情况 ， 可 以 将 fely, W) f(y, W) AY Kullback- 
Leibler HR RIRN 

Dy, AW) =- h(Y) + MACY) (10.75) 


其 中 ACW) Sb ot BS Aa nR BL et A, AYO YR i PCR ARR. Kullback- 
Leibler 散 度 Da SEW IHR Aad Sa A. 


POS FH ACY) 的 确定 


(10.73 25 cH i ey Bt Ae at X AX, HP WE. Hash 10. 18), 
RE AGE Y 的 微分 箭 表 上 为 
RCY) = hCWX) = ACK) + log} det(W) | {10.76} 
其 中 det(W) aE W 的 行列 式 。 


AR AY ) 的 确定 


A TR Kullback-Leibler AXE Dap, FRNA MRA hY) ATRE ACY, SS 
AGE Y, Wee oth. RAEk REIL E YER YS i Sb FRAP REBOTER. SE F~- ThE 
的 向 量 YORU, oR ACY) BOR h(Y) 困 难得 多 。 根 据 随机 变量 了 的 高 阶 矩 我 们 推导 出 
AZ 的 一 个 近似 表达 式 来 克服 这 个 困难 。 适 当 截 断 下 面 两 个 于 并 式 中 的 一 个 可 以 完成 这 个 
EJ: 

* Edgeworth $5 ( Comon, 1991) 

* Gram-Charlier 级 数 (Aman et al. , 1996) 

在 本 草 中 ， 我 们 将 运用 第 二 种 方法 。 在 注释 ”中 给 出 Gram-Charlier 级 数 的 说 明 。 在 该 注 
释 中 对 Edgeworth 级 数 也 做 了 扼 变 描述 。 

具体 地 说 ， 参 数 化 的 边 绿 概率 密度 也 数 jy (y, WIM Gram-Chanlier 展开 式 表示 为 
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fy CYW) = alr l1 + > cr) (10.77) 
其 中 各 项 的 定 交 如 下 : 
L. WRAT aly ae :个 具有 零 均 值 和 方差 为 1 的 归 一 化 的 Gauss 随机 和 变量 的 概率 密度 
paz; Hp 


l _ 
aly, } = =E us 


y 2x 
2. H, (y, de Hermite $ A, 
3. 展开 系数 ic k= 3,4, | RL a Y, 的 累计 量 定义 ， 
在 (10.77) 中 各 项 的 白 然 顺序 并 不 是 Cram-Charlier 级 数 中 最 好 的 。 Abe, PER A 
出 的 项 应 组 合 在 一 起 (Helstrm,1968) : 
k = (03,3), (4,6), (5,7,9), 
对 于 百 源 分 离 问 题 ，GCram-Charlier 级 数 中 在 = (4,6) BURIAL, S ARREA Ay Cy, EE 
WERT. FHA VAS EK 
fy (y) = ad ys )(1 + Hy }+ TAE + 


其 中 ,起 了 Bk BP A. OS om ,表示 了 STA BR, ELK 
Miik = ELY; ] 


2 
Lee + 10a) He ly, j} (10.78) 


= = El ( (Z wX)’ (10.79) 
HP x EDE X 的 第 i tA, 是 权 值 年 阵 WPI, AIO. FILS ARIA Bie 
上 所 有 有 的 AAAS. un, 我 们 有 方差 o = m MÉAR), WHY Wek 
阶 深 积 量 同样 如 此 ; 


Ki = Why (10.80) 
Kia = Mma — 3m); (10.81) 
Koa — Mg — 10m; ; = ISm, 5 Mia t 307m; » (10,82) 


利用 式 410.78) 的 通 近 ， 方 Cy, ) 的 算法 给 出 如 下 : 


(ke + LOK 3 ) 
E H (y, ) 


(10.83) 


logy, (y:) = logal y,) + log( 1 + “2 Hy) + 2 y Haly.) + 


H TRT., FRA Ao ace et 
lool l + y) = y- a (10.84) 


Fh = BP SPL RRR BRE RS fo 
从 前 面 的 讨论 ， 我 们 回忆 计算 了 BRR OW A (10.43)) 


CY.) =- | f(y logh Cy.) dr» Ls h2 m 


其 中 m 是 源 的 数目 。 利 用 式 (10.78)，(10.83) 和 式 (10.84) 中 的 近似 值 ， 进 行 涉及 xfy ) 和 各 种 
Hermite 多 项 式 H ) 的 积分 ， 我 们 得 到 边缘 炳 的 近似 公式 (Madhuaranth and Haykin, 1998); 
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ri | Ka Ka bre + 10K, 5)" 
R(Y;) = -z log(2me) - 75 — ag ` 1440 
Ki aC kis + 10k, 3} Kal 6 + LOK; 3) 


+ aKa + A = (10.85) 


Fg ies T 10x; ; H Kia TE + 10r 3 y 


64 * 16 * 432 
Fash (10.76) 和 式 (10.85) 代 大 式 (10.75)， 我 们 得 到 目前 问题 的 Kullback-Leibler av : 


D7 CW) = — A(X) — log | del(W) |+ S log(2me ) 





mt 2 i. 2 
Ka Kid (K, o + 10K; 33 3 2 
ag 十 = o Enuake 


12 * 48 1440 8 
(10.86) 


ic, a Cie, 十 Ni! 3 ) eC, + lhé) 


24 


Kae + 10K) Ka (ig t pears) 
64 16 432 


FLAP RH EAEL W BIRRE: 
A i AR 


A T irA{10.86)F Kullback-Leibler RFE, RIJE Air ORM fo) eX BT 
AAA, mee a ETAETA WES MO 8 EARRA E ER 
于 出 是 通过 Gram-Charlier RA REF AA, MERE Y 是 零 均 值 和 方差 为 | 的 随机 变量 。 
等 均值 的 假 疫 是 因为 以 二 我 们 假定 源 信号 为 等 均值 的 。 至 于 方差 为 1 AR, BRAA A 
和 神 方 法 中 的 ~- 种 进行 处 理 ， 

1. 约束 方法 。 在 这 种 方法 中 ， 单 位 方差 的 假设 用 于 计算 对 所 有 “的 疝 阶 栋 积 量 3. ， 
和 kis(Amari,1996)。 不 幸 的 是 我 们 不 能 保证 在 计算 过 程 中 工 的 方差 { 即 oo? ) ER, TER 
是 1 了 。 从 式 (10.81) 和 (10.82) 的 定义 中 注意 x, 和 x, 的 估计 依赖 于 ó = mao BRE =l, 
则 导出 c 和 ,6 的 倍 计 有 极 太 依 差 ， 这 将 引起 它们 和 «3 信和 订 之 同 的 错误 关系 。 

2. AARTE. ERREDH, JE 5 被 看 作 是 一 个 未 放 的 时 变 人 参数 ， 这 也 是 与 
实际 情况 相符 的 (Madhuranath and Haykin,1998)。 方 差 51 的 偏离 叮 以 看 作 随 机 变量 了 了 的 
一 个 比例 变化 。 重 要 的 是 ， 导 出 的 上 ,和 As 的 估计 考虑 到 了 of BRT A FE 
410.86) 中 的 所 有 3 个 局 了 过 积 量 的 司 计 还 维持 正确 的 关系 。 

在 Madhuranath and Haykin( 1998) 所 作 的 衣 源 分 离 实 验 的 研 冤 报 告 表 二 ， 无 约 东 方法 产生 
的 结果 比 约束 方法 的 要 好 在 后 面 的 讨论 中 我 们 使 用 万 约束 方法 ， 

为 了 找到 计算 W 的 一 个 学 习 算 法 ,我们 要 求 式 (10.86) 对 W 的 微分 ， 从 而 对 算法 形成 
一 个 合 挝 的 激活 虹 数 . 

令 A, RERE WHY ik RPK. 对 det(W) 按 说 行 进行 拉 普 拉 斯 展开 ,可 以 写成 (Wsylie 
and Barrett, 1982) 


de(l W) = $ wA,  € = 1,2,-75m (10.87) 
k=1 
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其 中 w, ETRE WAC. AUR. AE de WORT w KMAT, IFE 


d l J Ay pe 
Jau, te det(W) ) = aW je, te) = qa W) = (Wa (10.88) 


aw, 
其 中 we Be W OB, EROSO PET RR OT ow RR PS Bl N, 
sk (10.80) FEC 10.82)) 


Fi; 3 





T 2 
-) = 
-= 4£[ ¥°X,] - 12m, EL YX, | 
ae 


(ke + iOr; 3) = 6E[ FX, ] — 30m,, EL YX, | 
È i be 


- 60m, E. YX, ] + 80m,,E YX,] 
HTT- TA EMRA, BHANGRA EIS. AEE aA P 
Rin ERER, RHEA MA eR: 








PER we 3y x, (10.89) 
dK, 4 3 
Je, T 8 yx, (10.90) 
TA T 10x. 3) Ses 96x, (10,91) 
在 式 {10.86) 的 表达 式 中 对 wi 的 导数 用 式 (10.88) 至 式 (10.91) 替 代 ， 得 到 
J Da; W) = (Wo), + oly, bay (10,92) 
其 中 的 oy, ) ceo SEB: AJER eB, HE SCA ( Madhuranath and Haykin, 1998) 
ey) = 57+ $y + >y + Ey - ay! + 128y,° - ay? (10,93) 


图 10.11 面 出 ely OR yl -l< y <D AWA. BPR eae y 的 取 伍 范围 ， 这 也 是 
2) SR. (ATE AY ET ARR RTE - 0.734, 0.734) ZB AEA; 
如 后 本 节 后 面 讨 论 的 那样 这 是 使 算法 稳定 所 必需 的 。 


ICA 学 习 算法 


学 习 算法 的 目的 就 是 最 小 化 概率 密度 图 数 立 和 析 因 分 布 员 , i=l, 2, c, m ZER 
Kultback-Leibler 散 度 ，。 这 个 最 小 化 可 以 运用 梯度 下 降 法 实现 ， 此 时 权 值 ws 的 调整 定 习 为 


a 
a ali PR 


= yl (Wi), — oly; ) x, ) (10.94) 
其 中 习 是 学 习 率 参数 。 
将 (10.94) 扩 展 到 分 离 器 的 整个 权 值 矩阵 网， 我 们 可 以 把 适用 于 W 调整 的 AW 表示 为 
AW = (W - oly)x’) (10.95) 
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图 10-11 «010.93 Aa AM oly) 
其 中 x fem x 1 SM eet x MHS, IA 


oy) = Ley) plr) Cy]? (10.96) 
FE sR (10.95) 25 HAY AW 的 公式 中 ， 注 意 到 
yo = xW" 
我 们 可 以 将 式 (10.95) 改 写成 等 价 形式 
AW = nll -o(y)x'’W' IW = nT- oly)y JW’ (10.97) 
PLES, KERRY ER ARERAW 
Wn +1) = Wn) + lI- ply(n))y’ (Cn) Wn) (10.98) 
其 中 参数 都 是 以 它们 的 时 变形 式 给 出 。 


等 变化 性 质 


百 深 分 离 算 法 的 目的 是 更 新 分 离 下 上阵 Won), Li ole 
yin) = W(n)x(n) = Win}An(n) 
在 统计 意义 下 能 够 尽 可 能 与 初 怒 源 信 和 号 接近 。 具 体 地 ， 假 设 一 个 全 局 系统 表征 矩阵 Cn) E 
ERREP A AIS BE Wn RAR: 
Cin) = WlnJA (10.99) 
理想 情况 下 ， 这 个 全 局 系统 应 该 满足 两 个 条 件 ， 
1. 负责 调整 Ctn) 的 算法 收 全 到 一 个 等 于 置换 滤 阵 的 最 优 值 。 
2, 算法 本 身 可 以 写成 
Cin +1) = Cin) + nnG(Ctnjn nCtn) (10.100) 
AP G(COn)uln) dé Chn) n) AYA Se a, REAPER SEE AA Con) Hee, m 
NEHA A WORE Wn) RE. OR A HE REO OK te 
(Cardoso and Laheld, 1996) 。 
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式 {10.98) 的 自 千 庙 算 法 当然 能 够 近似 满足 第 一 个 条 件 。 MH. GENERA, Bo 
个 茶 件 不 能 满足 。 为 了 说 明 这 个 问题 ， 我 们 可 以 将 式 (10.98) 重 瑟 成 等 价 形式 
Cin+1) = Cln) + y(n IG(C non YW (nn)A (10,1013 
Jip 
GOCCaju€ad) = EE p(CCnjul nd) CC nna)’ (10. 102) 
FCI. 98 BYE BCT EX (10.100) BHR AY SIE ee, A a et fA ee GCC (nun)? 
GR W CaA, Æ RERIT EREA ETF Con). RIELE ne A ip 
W tn)Win) 来 禾 正 。 项 WW 由 W 和 其 转 党 组 成 ， 总 是 正定 的 ,这 也 是 为 什么 乘 以 三 ?三 
后 不 改变 学 习 算 法 的 最 小 值 符 号 的 原因 ， 
重要 的 问题 是 : 为 了 达到 等 变化 条 件 所 做 的 调整 含义 是 代 么 ? 问题 的 答案 就 在 于 在 参数 
空间 中 梯度 下 降 是 如 何 形成 的 。 理 想 情 疮 下 ， 我 们 应 该 用 目标 函数 D,, (WON A RRA, 
利用 通常 梯度 多 已 ;定义 为 
VD CW) = (VD, -CW)) WW (10.103) 
遂 第 梯度 VD,1; 由 (10.92) 定 义 。 在 隐 含 的 意义 下 ， 梯度 VD CO W)1X 4B es W =W) 
用 用 下 区 党 标 系 的 欧 几 峙 德 空间 时 为 最 优 下 降 方 向 。 在 神经 网 络 的 典型 情况 中 ， 参 数 空间 性 
古 在 非 正 交 华 标 系 中 的 。 白 然 梯度 YD ,( 负 在 后 一 种 情况 下 会 产生 最 速 下 降 ， 所 以 在 构成 
百 狐 兮 离 辐 题 的 随机 算法 时 采用 它 蔡 代 通 稼 梯度 。 为 了 使 自然 梯度 空间 可 定义 ， 必 须 满足 两 
S BAK 
1. BAS WWERRE SA”. Rese -个 具有 正定 度量 W 的 微分 流 形 . 
2. Fae W 是 非 再 异 的 ( 即 可 赣 的 )。 
当前 的 问题 对 两 个 条 件 都 满足 。 
以 这 种 方式 改 与 式 110. 昭 ) 的 咎 法， 我们 可 以 与 为 
Won +l} = Wia) + al- ply(n) dy! OW On Wn) Wa) 
= Won) + [I - eyla y(n) Win) (10. 104) 
OAS BAA SAS (equivaniance TERM. Al 10-12 画 出 式 (10.104) 的 信号 流 图 . 
为 了 使 式 (10.104) 所 描述 的 自 适 应 算法 对 图 10-9 所 描述 的 育 源 分 离 问 题 得 到 正确 结果 ， 
WE Y 的 所 有 分 量 必 须 满 足下 列 商 个 要 求 ， 
© 用 于 计算 非 线 性 oC +) BY Gram-Charlier EF AR AEE SKTE IAA R Y 
生 尽 可 能 好 的 逼近 ; 例如 ， 式 (10.93) 的 激活 函数 可 以 满足 这 个 要 求 。 
© 学 习 率 应 足够 的 小 ， 使 得 了 BURP AT AD SE, 


稳定 性 分 析 


个 对 式 t10.104) 所 描述 的 日 适 应 算法 进行 稳定 性 分 析 ， 育 源 分 离 问 题 的 讨论 是 不 完全 
BY. TE Amari et al.(1997), OPERA HA go{:) 给 出 这 个 算法 的 一 般 性 的 稳定 性 分 析 。 在 算 
法 渐进 收 贫 于 一 个 希望 的 平衡 点 的 意 光 下 进行 分 析 ， 在 希望 的 平衡 点 盲 省 的 成 功 分 离 是 有 保 
证 的 。 

式 410.104) 是 基于 已 然 梯度 的 育 源 分 离 算法 的 离散 时 间 描 述 。 为 了 稳定 性 分 析 ， 算 法 改 
为 连续 时 间 的 形式 
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图 10-12) R010. IMEA ETA SRE S 


Wr) = DU- w(y(e))y7 (4) Wr) (10.105) 
Hol: 表示 时 间 ，W(1) = 3W(1)19+， 对 所 有 +1 ,学 习 率 oe) BIEN. S 
s = Ely] (10.106) 
k, = ed (10.107) [5221 
q = E| y? PE (10. 108} 


从 而 ， 根 据 Amari et al.(1997), SDAA eR (+), ARE 10. 104) FY A i ay PE 
FN RGSS Pe oO a+, EMAC Jaz, A 


gq, +1>0 (10.109) 
kh; > 0 (10.116) 
和 kk, > | (10.111) 


收敛 性 因素 
elie TAAAC IODA CLO UDAR EER, FRA REE SEF (10.93) PR 
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a a — n er n LE -— 


ARACO. 0NR FEJRE RT ARE TZ? 根据 Madhuranath and Haykin( 1998} 所 作 
KERIA EE., HERH, FRI TA lio te AAE: 
* PEC], ii- Ph EBRR a, A eee REUE s Y, TSE on) PERAS] 
— TTA SERIA. fk Tire. RR Ka, ea A k PAPE o 
* REI., ži Brh tie Be ea, aMi e 达到 一 个 相当 的 稳定 值 。 在 这 一 
AL, RUTTER ACARA. 
PS] UHC ea RD A a Sia ET A AARM eT ee GE FE oh 10. 104) 
法 收 敏 行为 的 合理 程序 的 基础 。 注 意 这 样 一 点 是 有 趣 的 ， 即 只 在 阶段 由 ， 算 法 才 与 Cram- 
Charlier HE FFE — S. 


10.12 计算 机 实验 


(ER 10-9 所 描述 的 系统 包括 以 下 三 个 独立 的 源 : 
wn) =0,1sin(400n }cos{30n) 
u3(n) =0.0]sen(sin(S00n + 9cos (40 ))) 
(RR) = RRO. -1，1] 的 区 闻 内 
fea AEE A 为 
0.56 0.79 -0.37 
A = | 0.75 0.65 a 
0.17 0.32 — 0.48 
ASRMREER 10-13 左边 显示 。 
对 于 分 离 项 ， 我 们 用 式 {10.104) 描 述 更 新 规则 的 批 处 理 形 式 ; 参见 习题 10.14。 选 择 批 
处 理 的 基 相 原因 是 提高 收 和 化 性。 利用 以 下 条 件 实现 算法 : 
- 初始 化 : A THREE., TAERE W 的 权 值 用 一 个 在 [0.0,0.05] 区 间 内 均 杀 分 
布 的 随机 数 产 牛 器 选取 。 
© PUA, SRA y= 0.1。 
。 信号 持续 时 间 : CER aR aa hrm EAR AREA 10“, fa N= 
65 000 个 样本 组 成 。 
图 10-13 的 右边 莲 出 经 过 300 次 送 代 后 分 离 器 的 输出 端 产生 的 信和 号 波形 。 除 了 本 知 源 输 
出 的 比 刘 和 和 置换， 图 10-13 中 左边 的 该 形 与 右 迪 的 波形 没有 明显 的 差别 。 得 到 这 里 结果 算法 
初始 化 权 年 阵 是 
0.0109 0.0340 0.0260 
Wi0) = 0 0 0.0467 ons 


0.0339 0.0192 0.0017 
算法 收 伍 到 最 后 权 值 托 阵 


- 10.1932 — 9.8141 -9,7259 


Ü, 2222 0.0294 — 0.6213 
W = 
了 .To ~ 1.7879 - 6.3765 


FHM RREPERI WA 的 值 为 
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图 10-13 左边 的 渡 形 : ORM S FMR: SRS 


- 0.0032 -0.0041] 0.2413 
- 0.0010 - 17.5441 — 0.0002 
2.56036 0.0515 - 0.0009 
PARERA S SHAT SAA, RTEA 
2.5636 0.0515 — 0.0009 
“| 


WA = 








_ 0.0010 — 17.5441 — 0.0002 
-0.0032 -0.0041 0.2413 
‘MAA. Z. SF SID o OR Ea a(S, A el el] I (clipped) fA AR 
A., WA 中 的 对 角 元 素 定 义 图 10-13 中 右边 输出 波形 与 图 10-13 左边 初始 信 源 波形 之 则 的 比 
fll FARR 
he EEE OPER, RT AEL ARRE EER Amai et al. , 1996 ): 
= z | Py | | [> Psy) 
i 2 24 max | pal we? 24 mar I pa 
其 中 P= )p,| = WA。 性 能 指标 # 是 矩阵 P 对 角 化 的 量度 。 如 果 PERNAH, MI = 0。 
对 于 那些 元 素 不 是 集中 在 主 对 角 线 的 上 第 阵 PP， 其 性 能 指数 将 很 珊 。 
在 图 10-13 PRR, $=0.0606. 


10.13 最 大 似 然 估计 
前 面 一 节 所 讨论 的 独立 分 量 分 析 的 方法 (县 最 大 互信 息 的 第 三 种 变 体 } 只 是 诸多 育 源 分 离 
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AE PA, (ARR RICA RP. EA REAR A A SE A A AE R a e 
ml: PRAIRIE ee AE EIRP PERM RAMU. g 
RAW RETA SE, AA RE; 参见 第 7 EE, E 


| 这 个 过 程 中 ， 我 们 月 先 建立 对 数 似 然 函 数 ， 然 后 根据 考虑 的 概率 模型 的 参数 向 量 对 它 进 行 最 


优化 。 从 第 了 音 的 讨论 中 ， 我 们 知道 似 然 函 数 是 一 个 给 定 模 型 中 的 数据 集 的 概率 密度 函数 ， 
但 是 只 是 作为 模型 未 知 参数 的 一 个 函数 。 根 据 图 10-9, + fu(') 表 示 随 机 源 向 量 U 的 概率 密 
度 图 数 。 混 么 在 混合 器 输出 端的 观测 向 量 刁 = AU 的 概率 密度 函数 定义 为 {Papoulis, 1984) 

fy(x, A) =| detA) | ACA!) (10.112) 
其 中 det(A ERGER A 的 行列 式 。 令 了 = in 上 ,表示 随机 向 量 和 的 六 次 独 站 实现 。 于 是 
可 以 气 成 

ATA) = [RA (10.113) 

我 们 发 现 用 归 一 化 ( 除 以 样本 数目 和 NN) 后 的 对 数 似 然 函 数 更 方 使 , 表示 为 


1 i 
Wlogfx(F ,A) = +H >} logfs(x,,A) 
=l 


= 二 > logi AX, ) — log | deti A) | 
@y=A'x AA Bae HARA Y O-PS, BR eR 
Nlogfx (9 ,A) = Dy logfuly,) _ log | det(A) | (10.114) 


SA'THAWH Ay. WERU WAS Y Ae, FERO IOFFER 
logfuty;) 的 样本 平均 值 。 从 大 数 定律 发 现 ， 当 NN 趋 于 无 穷 ， 


Ni 
LIW) = lim + > logfy Cy, ) + log | det{ W) | 
k=] 
= Ellogfy (Cy, | 十 log | detí W) | (10.115) 
人 | _ fly, W)logfy(y) dy + log | det(W) | 


以 概率 1 Bia, SCHR ee VORA. BLOW) MAR RAR ee. ALB 


号 法 


po) = [Aow 


我 们 可 以 将 LOW) em A FEA 








L(W) = EZEAN JES] dy + | AOW logy Ww) dy + log | det(W) | 
= 一 Dy ll fy 一 ACY,W) 十 log | det( W} | (10.116) 


其 中 ACY, W Eh W 参数 化 的 随机 向 量 Y OMB. i D1 E Ay. WA AZA 


Kullback-Leibler BX BF. H IA (10.76) (RAR (10.116), TARA MARAS OL CW) OR Ee 


( Cardoso, 1998a ) 
LLW) = - Dein - A(X) {10.117} 


其 中 ACK) #25) aaa A a EL A E X A. FESR 10.117) 2, HE RE 


ww ai bbt.com TAAWAOAA 





te FEBS BY 353 


权 值 向 量 W 的 是 Kullback-Leibler BEBE D, yp- 因此 从 式 (10.117) 可 以 得 到 她 下 结论 ， 最 大 化 
对 数 似 然 函数 就 罕 十 最 小 化 Kullback-Leibler 散 度 D:，; ， 即 使 分 离 佛 的 输 境 Y 的 概率 介 布 与 
初始 源 向 量 U 的 概率 分 布匹 配 。 
最 大 似 然 估 讨 与 独立 分 量 分 析 之 间 的 关系 

对 目前 问题 应 用 式 (10.45) 所 描述 的 Pythagoras 分 解 ， 可 以 将 Kullback-Leibler RUBE D; z 


表示 为 极 大 似 然 
De = De Re + Pe lf (10.118) 


上 式 右 迪 的 第 一 个 Kultback-Leibler 散 度 D, y, $b 22 HE M7 ot E PT AK WS 7K BE EE a 
第 二 个 Kullback-Leibler RJE Dey 是 描述 初始 源 疝 量 U SP th Ao ae, Y Be ap Ap Z 
fea] A ae BARE Se, DAU ey DORE AF Bi AC ASRS Pen fp Pd eA (Amari, 1997; 


Cardoso, 1998a) - 
总 失 配 ,= 结构 失 配 + 边缘 失 配 (10.119) 


“ie oe i” BH 28h a I A — 4 9p Te, HR” Se a) 
AR Hi 

7A TR WA ACRES BU AT PAK AAR ACA OO, ERA 
ab BRVRSMUOROPTARAeHADSA RE, FORE hPa ARS e E 
10-14 HP ( Cardoso, 1996: Amari, 1997). ax EAP, th es eae 


:概率 分 布 h 


所 有 的 独立 芬 布 





Pe 10.14 用 干 言 源 分 离 的 最 大 似 然 仿 计 与 独立 分 量 分 析 之 间 的 关系 示意 图 
最 大 似 然 最 小 化 D 1， 而 独立 分 量 分 析 最 小 化 Dy, 
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TEERAA OAR: 9 是 所 有 独立 的 概率 分 布 的 集合 ， 也 就 是 那些 乘积 形式 。 了 和 和 者 


ERF HHN. AS = hG W i 是 在 分 离 茧 的 输出 端 浏 量 得 到 的 概率 分 布 的 有 限 集 。 名 是 m 
维和 的 ， 其 中 m 表示 ¥ 的 维 数 ， 权 值 向 量 好 是 其 中 的 一 个 坐标 系 。 从 图 10-14 中 ， 可 以 清楚 
看 出 Dy MD, EWA 时 同时 取得 最 小 值 。 有 趣 的 是 集合 3 和 3 在 交点 处 正 交 ， 该 交 


A RE Raf Cy) ATE 

对 于 PS AEH BK SR TD Ty Td RE ee Re 99 RG, 
Tix EUR a A RE RAY). MATT RB EY ap BS A A EW 一 样 是 可 以 调节 
Mo MOTE, BOTTA PET IE @ ee AYR > Aft ( — HE GE) AG BK S48 Gt ( Cardoso, 1997, 
1998a) ， 这 种 联合 估计 的 一 种 巧妙 利 成 熟 的 方法 已 经 在 Pham et al. (1992, 1997) P H. 


10.14 RAMA 


Fasc At jA (maximum entropy methode BUR at EE fal eH Bell and Sejnowski( 1995 ) {E 
出 的 。 图 10-15 PIERS EA. SUR, AERO te x PEPE 
fF, FERD Y= WX, EPR UR. PB Y Zda th IER G 
(OZR Z, A G+ )de—T A EAR, AU, SYRA, WH MERAY ORE ZK 
分 炳 保证 痢 是 有 界 的 。 对 于 给 定 的 非 线性 GOCO, MAMA WR h(tZ}) 的 最 大 值 ， 
得 到 初始 源 向 量 U 的 一 个 估计 。 根 据 在 例 10.6 中 导出 的 式 (10.55)， 我 们 看 到 最 大 坑 方法 与 
最 大 互信 息 壤 则 是 紧密 相关 的 。 

非 线 性 G 是 一 个 对 角 映 像 ， 表 达 为 





Yı g1 CY1) z; 
G: É = ia = : (10. 120) 
Vn ee A 
我 们 也 可 以 写成 
Z=- GY) = GCWAU} (10.121) 
由 于 非 线 性 GC AE aI. BT OR ee Re) & OU 利用 分 离 器 输出 向 最 2 表示 成 
U = ACW IG (Z) = Wi?) {10,122} 
EP Gf — fh ak A ag 
Z| gi (z) Yl 
1 | 22 a, (z) Ya 
i; ‘ . —7 | 一 (10.123) 
Ëm Ep (ay) Fm 
输出 向 量 ZRET DARRE U AE 4 EE AGE XA ( Papoulis, 1984) 
E fot) 
faa) o det( Jiu) ) | n= ¥iZ) (10.124) 


其 中 det( J(u) Jacobi HE KMAT, Koh 7 HREM AT: 
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图 10-15 AF RRO ARATE AHS 
Meu, x, yz 分别 基 随机 向 量 U， 义 ，Y 和 名 的 全 


i 
i= Ju 


所 以 非 线性 G Eii Ei imt BEALE E 到 的 炳 为 
M(B) = ~ Eee =~ Blo ee) 
= — Dy i saan 在 uu = Wz) 处 求 值 (10.126) 


因此 本 以 看 出 求 AC ZORA AS PPR fy Cn) A deal E KI U Be aE PB 
间 的 Kullback-Leibler WE HEAT. 

假设 对 所 有 的 i， 随机 变量 Z,C EP Z 的 第 :个 元 京 ) 在 .0,1] 上 均 旬 分 布 。 根 据 例 10.1， 
那么 箭 ACZ)AO, HM, Mah (10. 126) 78 2 


(10.125) 


folu) =| det(J¢u)) | (10.127) 
在 理想 情况 W-A 时 ， 这 种 关系 化 简 为 
JuKu) = 5 对 所 有 的 2 (10.128) 
tla elu) 





相反 ， 如 果 式 (10.128) 满 足 ， 则 最 大 化 ARB WHA, AB S ERER. 
我 们 可 以 对 用 于 盲 源 分 离 的 最 大 炉 方 法 得 到 的 结果 概述 如 下 (Bell and Sejnowski ,1995 ) : 


如 图 10-15 Hae, SEP RRR HARE HBR HELA 
z= aly) = | feu )du, = 12m (10.129) 
RAKEI G H hwa E ZAM PHT WHA, RP ERE BRD SG 
对 所 有 的 i， 在 随机 变量 Z EKAL LPs RE, RARA RAR AUR 


方法 对 育 源 分 离 问 题 是 等 价 的 (Cardoso,1997 )。 为 了 证 明 这 个 关系 ,我 们 首先 利用 微分 的 链 
式 规 则 将 式 (10.125) 改 写 为 等 价 形式 








J; = 2 > E = 2 S uty (16.130) 
Jacobi JE M J AEn LARIAN 
J = DWA 
E+ DENA 
D = diag| 和 ena) 
ALA 
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dz, 


| det( J) | = 1 det( WA) | Tl 


AIF hA AERE W 和 非 线 性 函数 G SW IE AL RE EM / fe Ca})， 根 据 式 (10.131)， 它 的 
锦 计 可 以 形式 地 表示 为 (Roth and Baram, 1996) 


folul W,G) =1det(CWA) | I] 
TERE PP, STA HF OBA Le fhe log fy: 
(ulW,G). ER EIH, RAIA HRADIA ARS, 
言 源 分 离 的 学 习 算 法 


考虑 到 (10.126)} 的 第 二 个 等 式 ， 注 意 到 由 于 源 (信和 号) 的 分 布 通常 是 固定 的 ， 最 大 化 精 h 
(Z) BORAT WORK SP BEM Jogi det(J(u)) | Be A. RUN AKER -个 自 适 应 算法 ， 
Ae AT Ae eS H ork 


(10.131) 


ate (10. 132) 





® = log | det(J) | (10.133) 
将 共 (10.131) 代 人 式 (10.133) 得 色 
DP = logldet(A)1+ log | det(W) |+ Doel 于 | (10.134) 
Er ART AA ar BAN (RE W 求 o Riar a CO BR 10. 16) 
a =- W 4 > loe 5] (40.135) 


为 了 进一步 处 理 这 个 公式 ， 必 须 说 明 由 分 离 器 馈 人 的 非 线性 G(: )。 这 里 可 以 使 用 的 非 线 性 
的 简单 形式 为 logistic PRX 


1 , 
i= oy.) = lane E-E aT (10.136) 


图 10-16 HE AAR ALL Pe PRS) Fe eT A EA logistic 函数 满足 育 源 分 离 的 单调 性 和 
AY PRE RSE ABER. 将 式 (10.136) 代 入 式 (10.135) 得 到 


dD T 
3w = - WF 4 (1 - 22)x 


Hp x 是 接收 信号 ，z BoP SE EAE ELA. LES BAA 1 的 向 量 。 
IRIN Ae ee A AC Z). FUR A Be FBR, FP SEW 的 变化 
可 表示 为 (Bell and Sejnowski, 1995} 
a@ 


AW = Naw = ACW" + (1 - 2z)x"*) (10.137) 


其 中 中 是 学 刁 率 和 参数。 与 独立 分 量 分 析 相 类 做 ， 可 以 利用 自然 梯度 消除 对 转 置 习 值守 阵 w 
求 迎 的 奥 求 ， 这 等 价 于 对 (10.137) 和 琵 以 定 阵 和 WW。 这 个 最 优 调整 产生 权 值 变化 所 着 望 的 
公式 为 





AW = nW + (1 - 2z)x") WW = WI + (1 — 22) Wx)" ) Ww 
= nI + (1 - 2z)y' DW (10.138) 
RHP y ENAH h- AOR RE W 的 学 习 算法 可 以 表示 为 
Win +1) = Wan) + mlr (1 -220n))y Cn) Wa) (16. 139) 
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0.2 
= 06 
br 
l 0.4 
hy 
0.2 
0 
_10 _8 _6 -4 a2 0 2 4 6 3 10 
y, 
a) 
5 
= DP 
-$ 
0 0.1 0.2 03 0d 05 0.6 0.7 TE: 0.9 1 
2 
b} 
图 10-16 


a}logistic H$: a = (y= b)lopistic PACA: y, =e iz) 


af 


算法 的 初 值 W(0) 选 取 一 组 均匀 分 布 的 小 数值 。 

理 沦 考 汇 相处 验 观 测 都 表明 ， 式 (10.139) 的 学 习 算 法 局 限于 分 离 超 Gauss 分 布 的 源 (Beil 
and Sejnowski, 1995); 超 Gauss 分 布 的 写 义 参见 注释 避 。 这 个 局 女 是 在 图 10-15 中 系统 后 端的 
非 线 性 采用 了 logistic HAA ARSE HES, logistic 函数 对 源 分 布 加 上 先 验 知识 ， 即 一 个 超 
Gauss 形 。 但 是 ， 节 大 炉 方 法 限制 使 用 logistic 函数 和 最 大 似 然 方法 限制 基 些 固定 先 验 知 识 并 
没有 特别 不 同 之 处 。 通 过 修改 式 (10.138) 的 学 习 算 法 使 之 提供 固有 信 源 分 布 和 混合 矩阵 的 个 
计 ， 可 以 将 最 太 粮 法 应 用 到 更 广泛 的 源 分 布 范围 。 这 个 归 求 同 前 一 节 讨 论 的 最 大 似 然 法 有 相 
M PTFE E o 


10.15 小 结 和 讨论 


EEEH, RIRE Shannon 信息 论 模型 ， 建 立 筷 信息 作为 自 组 织 的 基本 统计 丁 具 。 出 
于 输 人 过 程 与 输出 过 程 之 间 的 互信 息 有 一 些 独特 的 性 质 ， 所 以 可 以 将 其 作为 自 组 织 学 习 的 最 
优化 的 目标 函数 。 实 际 上 ， 一 些 重 要 的 自 组 织 原则 已 经 出 现在 本 章 的 讨论 四 : 
。 最 大 互信 息 原则 ， 归 功 于 Linsker(1988)。 这 个 原则 的 基本 形式 非常 适合 建立 自 组织 1533| 
模型 和 特征 映射 。 
* 最 大 互信 息 的 第 一 种 变 体 ， 上 归功 于 Recker and Hinton( 1992), 4B Hig p ARAE, H 
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标 是 发 现 带 噪声 传 感 的 输入 在 时 间 和 室 间 上 表现 的 相 于 性 . 

。 最 大 互 信息 的 第 三 种 变 体 ， 归 功 于 Ukrainec and Haykin( 1992), TEXTES RAE ER E 
应 用 ， 对 不 同 的 两 幅 环 境 图 像 的 相应 区 域 中 ， 目 标 是 求 出 最 天 的 空间 差异 , 

*。 最 大 互信 息 的 第 三 种 变形 ， 用 于 独立 分 台 分 析 ， 上 归功 于 Comon( 1994)， 里 然 它 的 基 
础 可 以 追 济 到 Barlow (Brit (Barlow, 1985, 1989), 但 是 ， 在 Comon( 1994) HKHH f He 
立 分 量 分 析 的 严格 形式 。 

© BAMA, HIF Bell and Sejnowski(1995}, 也 是 与 最 太 互 信息 党 则 有 有关。 最 太 米 
与 最 大 似 然 是 等 价 的 (Cardoso,1997). 

最 大 人 简 片 法 和 独立 分 量 分 析 提 供 两 种 可 供 选择 的 盲 源 分 离 的 方法 并 分 着 有 自己 的 忻 
夺 。 以 最 太 炳 原则 为 基础 的 且 源 分 离 算 法 实现 简单 ， 而 建立 在 独立 分 量 分 析 基 础 上 的 相应 算 
APRS FRB, HEITA ED aA, 

ERMITA Pee ae A Ll FE 8, 2 A (cocktail party) ELS. DORAL ALTE AT 
一 种 显著 能 力 ， 能 够 在 嘲 杂 的 环境 中 选择 性 地 集中 并 跟踪 感 兴趣 的 听觉 输入 。 如 同 第 2 音 介 绍 
的 一 样 ， 对 于 这 个 非常 困难 的 信号 处 理 问题 的 解 涉 及 的 潜在 生物 神经 模型 比 图 109 所 示 的 理想 
横 型 坚 洪 得 多 。 神 经 竺 物 模型 包括 时 间 种 空间 相 理 形式 ， 这 中 处 理 未 族 | 的 延迟 、 反 射 和 噪声 所 
必需 的 。 现 在 我 们 已 经 对 标准 的 百 源 分 离 问 题 的 神经 解 所 涉及 的 基本 问题 有 了 一 个 合理 的 确定 
理解 ， 也 许 现在 我 们 应 该 转移 并 有 解决 在 规模 上 可 以 与 鸡尾酒 会 相似 的 现实 问题 , 

另 一 个 值得 仔细 注意 的 公开 研究 领域 是 育 反 卷 积 {blind deconvolution)。 有 反差 积 是 一 种 信 
号 处 理 操作 ， 它 理想 地 揭示 线性 时 不 变 系 统 对 和 输 人 信和 号 所 完成 的 卷 积 效果 。 电 具体 地 ， 在 通 
Bhs aides MARSA, SORBATE: CAREY, eR 
更 精确 术语 无 监督 反 卷 积 ， 仅 有 输出 信号 是 已 知 的 并 有 旦 还 有 可 能 知道 源 的 统计 信息 :; 要 求 求 
得 办 人 售 号 机 系统， 或 两 者 邦 要 求 得 到 。 很 明显 ， 育 反 卷 积 问 题 是 比 一 般 的 反 卷 积 问题 困难 


得 多 的 信号 处 理 任 务 ， 星 然 育 反 卷 积 在 文献 中 得 到 了 相当 大 的 重视 (Haykin, 1994a), SRR 


分 讽 问 题 一 样 ， 我 们 对 用 信息 论 模型 的 方法 来 解决 上 唐 反 郑 积 问题 的 研究 还 处 在 初级 阶段 
(Douglas and Haykin, 1997). 而 且 ， 在 请 如 移 动 通信 通道 之 类 的 不 友好 信道 中 盲 平衡 {biind 
equalization) 的 代价 有 歼 解 ， 和 鸡 尾 消 会 问题 的 解 一 样 是 一 个 挑战 性 的 问题 。 

总 的 来 说 ， 盲 自 适 应 问题 ， 在 源 分 离 或 反 卷 积 的 环境 下 ， 要 达到 监督 学 习 那 样 的 成 熟 发 
展 阶 段 还 需 杰 很 长 的 一 段 路 要 走 。 


注释 和 参考 文献 


[i] 想 进 一 步 了 解 信息 沦 ， 请 参考 Cover and Thomas{1991) 的 书 ; 也 可 参考 Gray( 1990) 的 书 。 
如 果 想 参考 信息 论 发 展 的 论文 集 ( 包 括 1948 年 Shannon 的 经 典 论 文 1)， 可 见 Slepian 
(1973). Shannon 的 论文 经 过 一 些小 的 改动 第 重 版 在 Shannon and Weaver( 1949) 的 书 和 
Sloane and Wyner( 1993) 的 书 中 a 
RENT TE AH 2S APE CONE Pe RUE 一 个 简短 的 回顾 ， 可 参考 Atick(1992)。 想 从 生物 的 
攻 度 来 理解 信息 论 方法 ， 可 参考 Yockey(1992)。 

[2] 不 要 把 Linsker 的 自 组 织 最 大 互信 息 原 则 与 决策 系统 的 信息 内 容 保 存 规则 相 混 活 ， 后 者 
是 在 第 了 章 简要 讨论 的 经 验 规 则 ， 

.3] 信息 论 与 感知 之 间 关 系 的 文献 综述 可 以 参考 Linsker( 1990c) 和 Atickf 1992) 。 
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[4] 


Armet HARE RA ATEARI RTE R; 热 方 学 中 的 炳 由 
H =- ks >) p.logp, 
定义 ( 见 第 11 童 )， 其 中 ky 是 Boltzman RL, p, 足 系 统 处 于 状态 o 的 概率 。 除 了 系数 ky 
之 外 热力 学 中 的 精 H 的 公式 与 我 们 在 (10.8) 给 出 得 精 的 定 交 和 在 数学 形式 上 是 一 每 的 。 
Shore and Johnson( 1980) 中 证 明 在 如 下 意义 下 最 大 婧 原则 是 正确 的 : 
以 约束 形式 纵 出 先 验 知识 ， 在 满足 这 些 约束 的 分 布 中 根据 “ 相 容 性 公理 ”tconsistency 
axioms) 能 饺 谋 撞 惟 一 的 分 布 ; 这 个 惟一 的 分 而 由 最 天 化 科 定 关 。 
相 容 性 公理 有 四 部 分 : 
T. 惟一 性 : SRR EE H) 
并 . 不 变性 : ERRA EM H A ER o 
lil. 系统 独立 性 : AHMAR SF E TR a OP B A AI I eB A EA 


RREH]. 
V. TERE: ABHD E RAE E Be H E FR A BOR Ak BE Y A E SR AS 
子 集 应 该 是 无 天 党 要 的 。 


Shore and Johnson( 1980) DE AA FA XT AER, Kullback-Leibler HX AE ELE A AN EE Be 

JF Lagrange HSRC, 24°F Domy(1975) 的 书 。 

项 F(X; Y), Hew) Shannon(1948) 用 来 指 信息 传输 率 。 今 天 ， 而 我 们 用 来 指 随 机 变量 X 
和 了 之 闻 的 下 信息 。 

AY T EER SCC10.45) 的 从 解 ， 吕 以 处 理 如 卜 。 由 和 定 交 我 们 有 


pats = | AoE) ax = [7 ao FE 2) as 




















ful } Jx (x) ful} 
-| OTi Shaxa f fog PD) ax (1) 
= Dy jy + A Erea dX 


M fy Ox) AE fo OO RIE MBS 





用 8 表示 式 (1) 最 后 等 式 中 的 积分 ， 可 以 写成 





B = | Fol 2) dx = [pg a 


Mo pa y (a s dii a fe (x è 
= | (od? ie yf" fala dx} da, = Dl. oe F Dre ddx; (2) 


oe ad 


在 上 面 最 后 的 等 式 中 用 了 式 (10.39) 的 定义 。 式 (2) 的 积分 是 Kullback-Leibler 散 度 ， 
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1, Fay SA i (x) 
B= > fy Co) Toe 5 ar, Jax 


; IERES 
= | oe 
~ If, Ga) 
AERP Sara YS dx= deds", WE 10.5 节 摘 述 的 -- 样 。 因 此 ， 将 (3 ) 
RAID, REER HEN oi: 
Deg, = Ph + lg 
9] Nadal and Parga(1994，1997) 也 讨论 最 太 互 信息 和 元 余 减 少 之 间 的 关系 ， 得 到 间 样 的 结 
Ae: 神经 系统 的 和 输 人 回 量 和 和 畏 出 癌 量 之 轩 的 号 作 昌 的 最 大 化 也 就 导 健 数据 减少 ，Hat 
and van Hemmen(1998) hie PLM RR Me A SR BRERA SCAT. ZR HA, AR 
“A, Po Hibs 3 FE AER oe As Se TPE EY EBM dea , Too Be aig ee ps et A HY... 
Becker and Hinton( 1992) A= 8% Jee oe Ale BO -- BP OA, 
JE Utiley(1970) FSIS AS BS, ROB Ae SSeS CMS fe 
RAE. ARER, OPERA SEE SO] le) ee a A fe PE BN 
的 判别 第。 这 种 模型 第 称 作 ”informmon ,， 它 与 最 大 互信 息 的 第 二 种 变 体 有 松散 关系 。 
[12] 在 Ukrainec and Haykin(1996) 中 描述 的 系统 包括 一 个 后 探测 处 理 器 ， 它 利用 关于 反射 器 
fH AGE Ri ACS AE, A PBS eRe ER TE BE SE Fe gk Be 
检测 器 的 辆 出 以 便 有 效 地 去 除 错误 警报 ， 从 而 得 到 系统 性 能 的 进一步 提高 。 
|13| EM p 3 ela e834 = Hérault, Jatten and Ans(t1985) 的 司 蒙 性 文章 ， 对 百 源 分 启 问 题 的 
历史 记载 ， 参 者 Nadal and Pargat1997); 这 篇 文章 也 强调 问题 的 神经 牛 物 侧 厅 强调 固 
Bia se Bist eS GR Ae RU] AZ E Cardoso( 1998a) . 
[14] RHFET a rir 
(a) Gram-Charlier & Ff x, 
SPEILER Y WARE AAC), gylw EEE BR, 根据 定义 我 们 有 


pyw) = | fy) edy CL) 
HEF ys’ -1, o SCR, AUR, TREATS BRS, FERRY wy(w) 是 
HEE as Fea A, Cy ASI Pa, ARE SL, PER wy(o) 是 一 个 复数 ， 它 的 实 
AOA NE RERNA o EARE. SRL ee OY A EE, OW gy Cw ATE w = 0 XE 
HE FP OM FER BL 


(3) 


dx = Le re 
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L__t 


[10 
[11 


LL 


tat (jw)* 
k=] k! 





erlo) = 14 Mt, (2) 
其 中 m © Y WE GP, 定义 为 


537 m, = ELY] = | y"fy ly) dy (3) 
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—_——<< ma EE es ————_—_—_£_ eaa ma rr ma | RN Ia EEE DE | EE EE EE EE 


AIDA EHH ERRERA PAER ARRERA, ARA- Ea 
序 ， 并 利用 式 (3)。 如 果 特 征 函 数 能 展开 为 式 (2) 的 形式 ， 我 们 可 以 将 grfog) 的 对 数 展 于 
为 (Wilks, 1962) 
logwpy (tw) = pie jj)" (4) 
其 中 后 是 随机 变量 了 的 n RK a EH 变量 (semi invariant)。 陈 (4) 是 由 logpy Cw) ££ 
由 二 人 0 处 的 大 于 jw AY Taylor 展开 式 得 到 ， 
为 了 简化 问题 ， 我 们 和 作 如 下 两 个 假设 : 
1. 随机 变量 了 的 均值 为 0， 好 w=0. 
2.¥ 的 万 大 导 归 一 化 的 , Ble =1, 
相应 地 ， 有 后 =0，&& =1， 而 式 (4) 的 展开 式 变 成 
log¢y{w) = > (ju)? + 4 Ta 站 (5) 
r(w} = ÞE: nt aw)” 
可 LORE (5) aS ay 
loge lw) = Go) + riw) 
BE, PIERR ARERR SB RY RR RERE N: 





pilo) = exp( = &) > exp(r(w)) (6) 
将 expC r(w) ERA AAP RIS Bh 
exp(r(w)) = 1+ Pe {7) |538 
将 式 (7) 代 人 式 (6)， ond n, 得 到 qqy{w) 展 开 式 的 新 系数 : 
Ky Ky Ks 


Cc. = O,€, 一 Ü, c = 6°" = 7423 = 130 


fo = E + 10r } , c- = le + 35K, Ky), Ca = arent + 56ra + 35x; ) 
等 等 。 现 在 可 以 用 gy; Co) Ae OP ea eS A Ay). HAS 





成 
jr Cr) = aly) (1 + S) Aly) (8) 
其 中 的 af y ) EE SE AE ie eB AE Gauss 随机 变量 的 概率 密度 闲 数 ， 
| fp 
aly} = i= (9) 


FEFT IA 8) ORCA H Gauss PR BX AVES AS Se Be as BY HE E R E AK) Gram-Charlier & & 
(Stuart and Ord, 1994). APRA MRAM AA SA. BU, WRB ee 了 
是 由 ~… 些 独立 的 同 分 布 的 随机 变量 的 和 ， 那 么 当 变 量 的 数目 趋 于 无 窃 时 ， 根 据 中 心 极 
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HE, FEF Gauss 437), Gram-Charlier 级 数 展 开 式 的 第 一 项 确实 是 Gauss 的 ， 这 意 
际 吞 它 的 表 小 随 春 变量 的 数 有 站 培 加 ， 夺 列 后 而 的 项 的 相 趋 近 于 零 。 
式 (8) 中 的 Hemite 3 AA A, (7) 遂 过 aty) 的 下 阶 导数 定 多 为 
a’ Cy) = (- Dely) Hity) (10) 
下 向 性 一些 典型 的 Hermite 多 项 式 : 
Ay(y) = lH(y) = yyY)= y - 1, 
Hily) = y -3v,H,(y) = y - 6¥ +3, 
Hy) = y ~ 0y + 15y, Hily) = yf — 155° + 45y -15 
jx HE eR RAB EE BO 
H,.(y) = yA, y) - kA, Cy) (11) 
Hennite 多 项 式 一 个 特别 有 用 的 性 质 基 H,(¥) Al Gauss 图 数 aly DI m 次 导数 是 闫 正 交 
的， 表示 为 
| BO (yey selno omeni (12) 


其 中 8, E Kronecker 775, 5 kom AEA, HRN 0o 
重要 的 是 注意 到 项 的 自然 顺序 对 Gram-Charlier 级 数 并 不 是 最 好 的 。 相 反 ， 应 按 下 面 何 
出 的 圆 括号 内 的 项 分 组 (Helstrom,1968); 


k = (0),(3),(4,6),(5,7,9) (13) 
RHE Sy a ae A ERRER. BUR ATR ok = 4 AS, WR tee 4 k 
= 
(b) Edgeworth AWA 


本 前面 一 伴 ， 令 aty) 是 一 个 归 一 -化 为 堆 均 值 和 方差 为 1 ARLE RRE E 
随机 变量 了 BL ROT Gauss ME aly) By Edgeworth 展开 式 为 {Comon ,1994; Stuart 





and Ord, 1994} 
Lin whe SH, or i DER Hy) + = HC y) 
eS HC) 4 “gt Holy) + O) + gi O) sell 
+ Cy) ， 2100r 2 E e 








10! 
AP x, 表示 标准 化 后 的 标量 随机 变量 了 的 ; MRM, ony i Et Hemite ST, sh 
(14) Ud Edgeworth 级 数 。 
Edgeworth 展开 去 的 关键 特征 是 系数 为 一 致 递减 的 。 男 一 方面 ， 式 (8) 中 的 Gram-Charlier 
展开 式 从 数值 误差 来 看 并 不 一 致 艳 于 0; 也 就 是 说， Ath, RAR, 
也 殖 是 这 个 原因 ， 小 要 按照 式 (13) 的 分 组 来 截断 Gram-Charlier EFÈ. 

115] HVD = (YD)W W 代替 通常 梯度 YD 解决 育 源 分 离 问 题 的 思想 在 Cardoso and Laheld 
(1996) 中 有 详细 的 介绍 。 这 里 Y'D 称 为 相对 梯度 ， 这 个 梯 床 与 自然 梯度 是 相同 的 。 自 然 
樟 度 是 从 信息 斤 何 的 观点 来 定 立 的 (Amari,1998;Amari et 世 ,1996)。 类 似 的 算法 时 些 时 候 
在 Cichocki and Moszezyfiski( 19921 和 Cichocki et al. (1994) 中 有 描述 。 
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[16] 例如 ， 在 = PERS SH, Cla a 的 平方 范 数 定 多 为 


Jai = Doan 
rp gree T BEER, x Azs 4 by BY BRIE , Hy = Sa + 表达 成 有 边 总 是 正 的 。 
这 个 表达 式 是 欧 几 里 管 平 方 范 数 会 式 


lal? = ya! 


WHE). KTERE, Bs Amari( 1987) Ai Murray and Rice( 1993). 

(17 | Abert (10.55) E YO ROY AIRS ICY; XO ZR A, Bell and Sejnowski( 1995) 把 他 
们 的 育 源 分 离 风 方法 称 为 最 大 互信 息 原 划 ,, 但 是 更 好 的 术语 是 "最 大 燃 方 法 ”"， 因 为 它 
BR AZ) Me AE, He 2= GY). JAS Bell 和 Sejnowski 的 讶 源 分 离 的 最 大 炳 
方法 不 应 七 归功 于 Burg(1975) 的 谱 分 析 的 最 大 依 方 法 (MEM) 相 混淆 。 

[18] EHLE Et X 被 称 为 亚 高 斯 (sub_ Gauss) 的 (Benveniste et al. ,1987)， 如 有 果 
© Ee S} 
© ERHET EAR f(x) BI Pea aM expl -— gtx) 的 形式 ， 其 中 gz) 可 能 除了 原点 

Sh Hy BR PES, AH eC Al g (adie 在 区 则 10.o) 是 严格 递增 的 。 例 如 ， 可 
能 取 e(x)alal?, B>2- 
但 是 ， 如 果 g (adie 在 t0，m) 是 递减 的 ， 而 其 他 的 性 质 都 满足 ， 则 随机 变量 X eo ae 
$ Mi ( super-Gauss) A9 (Benveniste et al. ,1987 }， 例 如 g(x)=ixl’, B<2, 
A REITA A SE) E Be LS et HE (kurtosis ) FF Se PE OY i, E r Be eT BY 
指标 。 随 机 变量 X ey Ae A 
(x) = a 
{E[X IY 
在 此 基础 上 ， 根 据 峭 度 K(x) 为 负 或 为 上 上 上， 随机 变量 天 分 别称 为 烛 融 斯 或 超 高 斯 的 ， 
>) 

Be A A 
10.1 随机 变量 的 支撑 集 (也 就 是 取 非 零 的 值 域 ) 定 义 为 [a ,51; 没有 别 的 限制 加 在 X 

上 ,、 该 随机 释 基 的 最 大 靖 分 布 是 什么 ?证 明 怀 的 结论 

互信 息 
10.2 推导 10.4 节 描述 的 随机 变 曙 和 了 的 五 信息 式 下 ;四 的 特性 ， 

10.3 O23 ABEL XHAR X, AP aX, ALA, GEM 
Y. = a'X,,Z -bX 
试问 Y, WZ, ZARA X, AX, CM eR AiR? BRE XIRRI ee 
元 Gauss 分 布 


-3 


| Teo! 
fx(x) = (an) (dere) ptt - p) E (x-p)) 


HH u Ee X WEA, SEEM. 
10.4 Æ + APRI R FAA AA Ku llback-Leibler 散 度 来 推导 多 层 感 知 机 
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(Hopfield, 1987b; Baum and Wilezek, 1998 ) 的 监督 学 习 算 法 。 更 确切 地 说 ， 考 虑 一 个 由 一 个 输 
和 人 导 、 一 个 隐藏 层 和 一 个 输出 层 构 成 的 多 层 感知 机 ， 根 设 实例 或 样本 a 呈现 给 输入 ， 输 出 民 
性 经 元 至 的 得 出 解释 为 概率 ， 
Vico = Pale 
相应 的 ， 令 q zea Se Ad oot. RBA HAMAR SCE, AS Rt 
Ele l ~ Ytlig 
jy = 2a P. 5 ( quelogl ga + 1-— gue log( =e} 
其 中 p, 是 一 个 出 现 a 情况 的 先 验 概率 。 
UD ,为 最 优化 的 代价 两 数 ， 推 导 一 个 儿 层 感知 机 的 学 习 算 法 。 
最 大 互信 息 原 则 
10.5 很 设 有 了 遇 个 通 违 。 它 们 的 输出 分 刘 用 随机 变量 XY AY eo, BOR Y, YZH 
五 信息 达到 最 大 。 证 明 只 要 满足 以 下 条 件 则 就 可 以 达到 要 求 : 
Ca} tH BE A RR EARM Y BHR AP BFE 0.5, 
(bX, Y BURRS Hae FE peace FE EE I — RA 
10.6 考虑 图 10-17 PÉR PR, SRR A ABO m 个 源 节点 。 输 人 由 
X,, X,, °°, 表示， 相应 的 输出 结果 用 Y, ¥, 表示 。 你 可 以 作 如 下 假设 
© 网 络 输出 端的 加 性 噶 声 分 量 N,, N 起 Gauss 分 布 ， 上 共有 零 均值 和 共同 方差 OK , FH 
互 不 相关 。 
* 每 个 只 声 源 与 输 人 信号 无 关 。 
© 输出 信号 Yi, Y, 都 是 0 均值 的 Gauss 分 布 。 
(a) elt Y=LY,,¥, J SHAME X=-(1Y,,.%,,-°.4,]’ ZR. 
(利用 (中叶 出 的 结果 ， EP a T a OE EB oy A P RY Linsher, 
[542] 1998a ) : 
(DREAD ERA, ERN of 相对 于 站 ，Y 很 大 。 
GERRI ÆI, RA 相对 于 Yi, ¥, 很 小 。 


xX, h N, 


图 10-17 


10.7 在 10.9 节 中 所 描述 的 最 大 互 信息 原则 的 变 体 (Becker and Hinton, 1992), HR 
ERRERA HERRAN X., X, RH Y, ¥, 之 间 的 互信 息 I( ;了 WRK. 
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值 与 它们 固有 的 共同 信号 分 量 S ZTA A s) ORAK. 


利用 式 (10.5$9) 和 式 (10.60) 中 摘 述 的 噪声 蛋 琐 ， 宛 成 下 列 任 劳 : 
(a LEAR 











/| = 5] 7 ogl vari N, +N, 
FLYIN, N, 是 了 ， 相应 的 噪声 分 量 ， 

(b) FA fe TER -5 a g He RERE Y GAELA - 
独立 分 量 分 析 

10.8 给 出 主 分 基 分 析 ( 在 8 草 讨 论 }) 忆 独立 分 量 分 析 { 在 本 章 讨论 ) 的 说 细 比较 。 

10.9 独立 分 量 分 析 可 以 用 作 检 测 和 分 类 之 前 近似 数 据 分 析 的 预 处 埋 此 骤 (Comon， 
1994 )、 讨 论 能 在 这 种 应 用 中 加 以 利用 的 狐 立 分 量 分 析 的 性 质 。 

10.10 Damois 定理 陈述 只 有 半 各 个 独立 变量 是 Causs 分 布 的 ， 其 和 才 是 Gauss 分 布 的 
(Darmois, 1993)。 肯 独立 分 量 分 析 证 础 这 个 定 晨 。 

10.11 三 实 际 的 应 用 中 ,一 个 独立 分 量 分 析 算 法 实现 只 能 得 到 “ 尽 可 能 统计 独立 ”。 上 比 
较 用 该 算法 解 首 源 分 离 问 题 得 到 的 解 与 利用 去 相关 方法 得 到 的 解 的 差异 。 假 设 观 察 向 量 的 协 
方差 矩阵 为 非 奇 异 的 。 

I0.12 参考 图 10-9 描述 的 系统 ， 让 明 分 离 蓝 的 输出 YY 的 任何 两 个 分 其 的 互信 息 最 小 化 
与 参数 化 的 概率 密度 孙 数 f(y,W) 和 相应 的 析 因 分 布 fy(y,W) 之 间 的 Kultback-Leibler 散 度 的 
最 小 化 等 价 。 

10.13 在 式 (10.104) 中 增 述 的 电源 分 离 问 题 的 自 适应 算法 有 两 个 重要 的 性 质 : (1) 等 变 
化 性 ，(2) 权 值 和 矩阵 WERIT R., EAO A 10.11 节 后 面部 分 有 详细 的 介绍 。 在 本 习题 [543] 
中 我 们 考查 第 二 个 性 质 ， 

假设 用 于 升 怒 (10.104) 算 法 的 初始 值 WOOW EAF I de WE0))i 关 0， 证明 对 所 有 的 
n AB ildet(W(n))| 40, ETRE Win) 对 所 有 的 n 是 非 厨 异 的 充分 必 娄 条 件 ， 

10.14 ”在 这 个 问题 中 ， 我 们 讨论 式 (10.104}) 所 描述 的 育 源 分 离 算 法 的 批 处 埋 公 式 ， 特 
别 地 ， 我 们 写成 


AW = oft - —O(¥)¥"| W 


其 中 
y lr ya s OND 
y = ya(2) me mA 
Vm Ob) ¥_ (2) oc ¥, ON) 
Pv) ely (2)) e oly, CN) 
DY) - lai ae i Wh 
oly,(1)) oly,(2)) -+ oly, 0N)) 
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其 中 N 是 可 用 数据 点 的 数目 。 让 明 上 式 描述 的 权 值 矩阵 W 的 调整 AW 的 公式 成 立 。 
BAMA 
10.15 考虑 图 10-1$， 我 们 得 到 
Y = WX 
其 中 Y="¥o¥ KL 
X=[X,,%1,°°,%,]" 
W 是 一 个 mx m eS. S 
Za | 
其 中 Lapli Te 
(a) 证 明 名 的 联合 粹 与 Kullback-Leibler 散 度 Da t ARKAA 
A(Z) =- Dap- Da, 
其 中 D;i ,是 下 面 两 个 量 的 Kallbaek-Leibler 散 度 : (a) 统 计 独 立 的 ( 即 析 因 式 的 ) 输 出 向 量 组 Y 
的 概率 密度 归 数 ，(b) 由 【[ ,gq(y,) 定 义 概率 密度 函数 。 
中) 对 所 有 的 2， 当 gy Sei U 的 概率 密度 耳 数 相等 时 ， 有 (于) 的 公式 该 如 何 
修改 ? 
10.16 (a) 从 式 (10.,134) 开 始 ， 推 导 式 {10.135) 的 结果 。 
Cb) A930 10. 136) HA BY logistic BAB, WE AY fe A eh (10. 135) RR PAE 8 (10.137) ERA 
式 。 
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第 11 章 BRR ASHE 
机 刁 和 它们 的 逼近 
11.1 简介 


作为 我 们 无 监督 ( 自 组 织 ) 学 涪 系 统 的 最 后 一 种 类 吊 ， 我 们 蓉 统 计 力 学 作为 我 们 思想 的 出 
发 点。 统计 力学 的 主题 围绕 对 大 系统 宏观 平衡 态 性 质 的 形式 化 研究 ， 而 系统 的 每 个 基本 元 素 
ARASH OE BE. 统 讨 力学 的 主要 日 标 是 从 微观 元 素 如 原子 和 电子 的 运动 推导 出 宏观 物 
(a Aye ME (Landau and Lifshitz, 1980; Parisi,1988)。 这 里 面 对 的 自由 度数 量 是 已 太 的 ， 这 
样 只 有 利用 统计 的 方法 进行 研究 。 正 如 Shannon 的 信息 论 一 样 ， 在 统计 力学 的 研究 中 丧 的 概 
念 起 者 关键 的 作用 : 系统 越 有 序 或 者 它 的 概率 分 布 越 集 中 ， 则 丧 越 小 。 同 样 我 们 可 以 说 ， 系 
ARET ERMER, ROK. FE 1975 年 ，Jaymes 证 明了 精 不 仅 可 以 像 前 一 
TR SAREE EAT ESTE MAS, MARE Ar ESTA SAS Gibbs 分 
布 的 出 发 点 。 

利用 统计 力学 作为 研究 神经 网 络 基础 的 兴趣 加 以 追 浏 到 Cragg and Temperley (1954) LA Æ 
Cowan( 1968) 6 SAT fF. Boltzmann 机 { Hinton&Sejnowski , 1983, 1986; Ackley et al. , 1985) 也许 
是 第 一 个 由 统计 力学 导出 的 多 层 学 习 机 。 机 器 俞 名 的 原因 是 为 了 表明 神经 网 络 自 己 的 动 
力学 行为 和 Boltzmann 初始 的 统计 热力 学 的 形式 的 等 价 性 。 基 本 上 谎 ，Boltzmann #1 FT EA 
给 定数 据 集 的 固有 概率 分 布 进行 建 模 ， 这样 在 诸如 模式 完备 和 模式 分 类 等 任务 中 所 使 用 
的 条 件 分 布 就 可 以 导出 来 了 。 令 人 遗憾 的 是 Boltzmann 机 的 学 习 过 程 是 令 人 难以 忍受 地 慢 ， 
A BOT Boltzmann 机 的 修改 和 产生 了 新 的 随机 杖 器。 以 上 这 些 问 题 构成 了 本 章 的 
大 部 分 题材 。 


本 和 草 的 组 织 


本 章 被 组 织 成 三 部 分 。 第 一 部 分 由 11.2 节 至 11.6 节 所 组 成 。11.2 节 给 出 统计 力学 的 简 
PEE, Æ 11.3 节 中 回 岗 一 类 特殊 类 型 的 随机 过 程 ， 即 Markov 链 ， 它 是 在 研究 统 让 力学 中 
SIRS. 11.4 FF. 11.5 节 和 11.6 节 描述 三 种 随机 模 氟 技巧 ，Metropolis RHE, MAB HK 
和 Gibbs 抽样 。 

本 音 的 第 二 部 分 由 11.7 B 11.9 PAAR, EZAR ULLA. 11.7 HHA Boltzmann 机 。 
11.8 节 描 述 sigmoid 个 度 网 络 。11.9 WHA — AERA Helmholtz 机 的 随机 机 颖 。 

本 章 的 最 后 一 部 分 由 11.10 节 至 11.13 WHER, 讨论 随 机 机 器 的 基于 和 统计 力学 中 的 平均 
场 理 论 的 虽 近 .，11.10 讨论 在 一 般 意 当下 的 平 芍 场 理论 。11.11 节 讨 论 Boltzmann 机 的 平均 
场 理 论 ， 随 后 的 11.12 节 讨 论 对 sigmoid 信和 度 网 络 平均 场 理论 更 原则 性 的 处 理 方 法 。11.13 节 
描述 一 种 对 模拟 退火 的 逼近 ， 妈 确定 退火 。 

本 章 最 后 在 11.14 节 中 给 出 最 终 的 评论 。 
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11.2 统计 力学 


SS ILA ITS BEAR EI SERRE ee PRA Py -个 - 例如 ， 用 
p, 表示 状态 i 发 生 的 概 举 ， 具有 如 下 性 质 ， 
p 20 ÎE i (1.1) 
和 $p: = 1 2) 
用 .表示 系统 在 状态 i 时 的 能 量 ， SOT ae, SAS EB a A FE 
衔 时 ， 一 个 基本 的 结果 是 状态 i 发生 的 概 次 旭 下 : 
a Zexp| ~ 75] (11.3) 
其 中 TOMER BR, ky 为 Boltzmann 常数 ，Z 为 与 状态 无 关 的 常数 。1 开尔文 度 相当 
FRR - 273 BEL ok, =1.38x 10 RESF. 
式 (11.2) 定 义 概 率 规范 化 的 条 件 。 将 这 个 条 件 加 入 到 式 (11.3) 我 们 有 


i= Y expl - E] (11.4) 

规范 化 量 Z 称 为 状态 和 或 者 剖 分 函数 (通常 用 符号 Z 是 因为 这 项 的 德 文 名 字 为 Zustadsummey、 戒 
11.3) 的 概率 分 布 称 为 典型 分 布 或 Cibbs 分 布 1 ; 指数 因子 expl - E, ka TER Boltzmann M 
To 

对 Gibbs 分 布 以 下 两 点 值得 注意 : 

1. 能 量 低 的 状态 比 能 量 高 的 状态 发 生 的 概率 高 ; 

2. HARE 了 降低， 概率 集中 在 低能 状态 的 一 个 更 小 的 子 集 上 ，。 

在 神经 网 络 的 领域 内 ， 就 我 们 主要 关心 的 内 容 而 言 ， 温 度 了 可 以 被 视 为 一 种 协 温 度 ， 
它 控制 表示 一 个 神经 元 突 触 噪 衣 的 热 波 动 。 它 的 精确 标 度 因而 无 关 重 要 。 相 应 地 ， 我 们 可 以 
Bin ke 为 单 人 在 而 重新 度量 之 ， 因 此 重新 定义 概率 p AMARA Z 如 下 1; 


p: = exp - Z) (11.5) 
各 “i= Z er - 7 (11.6) 


SIS RAS AAR Se a a. BP TPA ARE. MELS) 
我 们 注意 到 -logp, FATE AAI FRE RE HE 





H FB BE EP 
一 个 物 埋 系统 的 Helmholtz 自由 能 量 记 为 F, AB Za: 
F = -— Tlogž (11.7) 
系统 的 平均 能 量 定义 为 
<b> = DPE, (11.8) 


其 中 < . > 表示 总 体 平均 运算 。 因 此 ， 利 用 式 (11.5) 至 式 (11.8)， 可 以 看 出 平均 能 量 和 自由 
ERZEN 
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ck>-Fi-T >p logp, (11.9) [L547 
C1. AAAI a T, ARRE, RRA 
H = 一 > jp, logp, (11.10) 


A HER ee a EL R11 A 
< E>- F = TH 


PATS A BR Eh AY 
F =< E »~— TH (11.11) 
考虑 两 个 系统 4 AA PER, RI ASE 4 ERRA BD, RE VRE fa 
Ya T PAR aR. PT A CAS ERY a [oF fk BR SSR Reif, 1967 ) 
AH + AH’ = 9 
W, AF AW 和 AR 分别 表示 系统 4 A AH Bt, RILL, KP RAM 
是 措 日 由 能 量 逐 渐 降 低 译 平衡 态 时 变 为 最 小 ，。 由 统计 力学 我 们 发 现 此 时 它 的 概率 分 布 为 
Gibbs 分 布 。 因 而 我 们 有 一 个 重要 的 原则 称 为 最 小 自由 能 量 原 则 ， 它 可 以 陈述 如 下 {Landau 
and Lifshitz, 1980; Parisi 1988). 
REPL ARE oH A eS He Aa Eik a, shat A SEAR AL Gibbs JA. 
Hin SAA ee) a Bs ASE. 
11.3 Markov $$ 


考虑 一 个 由 多 个 随机 变量 组 成 系统 ， 其 演化 可 由 一 个 随机 过 程 1 计 ,n= 1,2,… i 描述 。 
随机 变量 X, ETZ] n 取 值 x, 称 为 系统 在 n 时 刻 的 状态 。 随 机 变量 所 有 可 能 的 值 构成 的 空间 
称 为 系统 的 状态 室 间 。 如 果 随 机 过 程 j 世 ,= 1,2,…| 的 构造 使 得 ,的 条 件 概 率 分 布 仅 依 
‘eT X, 的 信 而 与 其 他 以 前 的 值 无 关 ， 我 们 所 这 个 过 程 为 Markov 链 (Feller, 1950; Ash, 1965). 
EREK, RITA 

P(X = mal A = yt X =m) = Pas nad =e) C1112) [548, 

这 称 之 为 Markov HERE, PTE UL: 

如 果 系 统 在 n+] 时刻 出 现状 态 x, ORE RRMPRRA n al ERS 的 概率 ， 
WU) Re AP ON XS, ce, X’ X.., RA Markov 链 。 


因此 我 们 可 以 将 Markov 链 看 作 产 生 模型 ， 它 由 -… 些 状态 和 可 能 的 状态 转移 链接 而 成 。 
每 时 刻 访问 一 个 特定 的 状态 ， 模 型 输出 一 个 该 状态 相关 的 符号 。 
$75 

在 Markov 链 中 ， 从 一 个 状态 到 男 一 个 状态 的 转移 是 随机 的 ， 但 输出 符号 却 是 确定 的 。 


令 

Py = POX as =; lA = i) (11.13) 
表示 在 n 时 刻 状态 i 转移 到 n+ 1 RARA j 的 转移 概率 。 既 然 ”为 条 件 概 率 ， 所 有 的 转移 
慨 率 必须 满足 两 个 条 件 : 
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cg 


SS mpr 


p,m OO MATA} (11.14) 

Spy = | 对 所 有 i (11,15) 
我 们 将 假定 转移 概率 基 固 定 的 ， 不 随时 间 疏 做 ; 世 就 是 说 ， 式 1141.13)? 对 所 有 时 间 n 成 了 并。 
在 这 种 情况 下 Markov SRR OY ATEN ROAR, 


如 果 系 统 具 有 有 上限 数目 的 可 能 状态 ， 例 如 六 个 状态 ， 则 转移 概率 构成 -一 个 天 x 不 的 第 
is 
Pi Pi 7" Pir 
P = me #i o i (11.16) 
Pr Pe YY Px 


ER 7c RIA E11. 14 R11 IS RR, Me aa ee PTT ALY 1。 这 种 
Ze FY FAB RFEA EPE E, EO BL AE BY LAE A H ES PF, 
Hy R11. 13) ee A 2S RT AE) "到 经 过 固定 的 步 数 从 一 个 状态 转移 到 另 一 个 
状态 。 令 py" 表示 从 状态 i So w (tlm oF ASR: 
po y= P(X un =x R= 4,),m = 1,2, (11.17) 
RIIA pP RERANRS i 转移 到 状态 ; BITMAP PEARS k WAL ai, pri” 
可 由 5:” 递 推 而 得 : 


poo = ŽOP py m = 1,2,°" (11.18) 
而 oe 一 Pir 
OLID AE MTF: 
pyr = Sipe, (myn) = 12, (11.19) 


it LE Chapman-Kolmegoroy BEF A 的 特殊 FIJE ( Feller, 1950), 

当 链 上 的 一 个 状态 仅 能 在 d ARRAZA LEAM, 我 们 说 该 状态 有 周期 de 一 个 

Markov 链 称 为 非 周期 的 ， 如 果 它 的 所 有 状态 仅 有 局 期 1。 
IR TE 

假设 一 个 Markov 链 从 状态 开始， 它 以 概率 [返回 状态 i, MERA i AIR: 

也 就 是 说 
f = (总 是 返回 状态 i) = 
a HEB fol, MERG & ABE AS ( Leon-Garcia, 1994) ,, 

如 果 Markov #M— > Rika a, WAS EN LEAR. DRM PRES 
开始 ， 它 将 只 能 有 限 次 重 现 。 这 可 以 作 如 下 解释 我们 可 以 把 状态 i 重新 发 生 看 作 一 个 成 功 
概率 为 上 的 Bernoulli 试验 。 它 返回 的 次 数 为 具有 均值 (1 -A RLA BANER, a A <1, 
这 和 蔚 味 看 有 无穷 次 成 功 的 次 数 为 零 。 因 此 一 个 朋 态 傅 买 在 有 限 次 返 回 后 不 再 发 生 (Leon- 
Garcia, 1994). 

如 果 一 个 Markov AEA EE BED Al AS, UKE ASE IRA CB 
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不 可 约 Markov 链 

一 个 Markov FE LERE 了 称 为 从 状态 i 可 这 的 ， 如 果 从 状态 到 j RTT Ra BER, 
率 的 转移 , 如 果 状 态 i 和 状态 ij 之 间 互 为 可 达 的 ， 则 该 Markov 链 葛 状态 和 状态 7 称 为 扳 此 
相通 的 。 这 种 相通 可 写作 ij。 很 明显 ， 如果 状态 与 状态 7 相通 ， 且 状态 7 与 状态 站 相通 ， 
Missy Mok, MIRS i APRS AO. BI ik, 

WR- -个 Markov AATRE, ERE lel ei). aT iP, 
Markov PRAHE a ee UE, AE, RITA RSA TS, “ae 
Markov 链 为 不 可 分 的 或 不 可 约 的 。 换 名 话说 ， 一 个 不 可 约 的 Markov 链 从 任 一 个 状态 开始 ， 
可 以 以 EE 的 概率 达到 任何 别 的 状态 。 可 约 链 在 大 少数 的 应 用 领域 无 实际 价 人 得 ， 相 应 地 我 们 腿 
制 我 们 的 注意 仪 在 不 可 约 的 链 ， 

4 B— PAR Markov $E, ERTZ] n =O ATF SRF IRA i. 今 了 (8 表示 第 上 -1] 次 
和 第 下 次 返回 状态 ;之 间 的 时 间 间 隔 。 状 态 ;的 平均 党 WE 的 期 望 值 。 
状态 让 的 稳 态 报 府 ， 记 为 x, ， 等 于 平均 常 返 时 间 ELT (4)] 的 倒数 ， 即 由 下 式 表 示 : 


™ = ET rk] 

A ELT CA) |<, 也 就 是 x >0， 状 态 i 称 为 正常 返 的 。 蔡 五 了 (1 J) =, thee a, 
=0, POS i RAR Wis, x, =0 BRA Markov 链 最 终 达 a 到 的 状态 再 返回 状态 i EAB] RE 
Wo TEAR AOS REA HIS AE, KERA HRERS TE Bk AS IR Markov 链 是 可 
A o 
遍历 Markov 链 


大 人 幅 上 说 ， 遍 历 性 意味 着 我 们 可 以 用 时 间 的 平均 租 代 总 址 平均 。 对 一 个 Markov 链 来 说 ， 
RT VE Fe OR ee EAE TARAS i MEJA CHE ADR RS SS oe, 相对 应 ， 这 可 以 说 明 萌 下。 k KI 
BRERA i OORT ee (AE MA | 


fh a 


» (2) 
返回 时 间 r (站 构成 _ 列 独立 的 和 同 分 布 的 随机 杰 量 ， 国 为 由 定妆 ， 每 次 返回 的 时 间 孝 是 和 
以 前 返回 的 时 间 统 计 狸 立 的 。 更 进一步 ， 对 汕 返 态 1， 链 返回 状态 i AFR, BUE HE PRR 
A k BELAH, KELAR, ATRA i 的 时 间 比 例 趋 近 稳 态 概 率 ， 表 泵 为 
limy, (k) = m,i = 2 天 (11.20) 
Markov $E ANA A 89 —-P FEMA EK PPP EE TE AB nA BE SA) 


Be FR at th 


考虑 一 个 遍历 的 Markov $2, FURR PE Po OF a? HEE n- 1 时刻 
的 状态 分 布 向 量 ; n OME ;个 分 量 为 在 时 刻 n -1 时 链 处 于 状态 x 的 概率 。 在 n 时 刻 状 
态 分 布 同 量 可 以 定义 为 
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w = "P (11.21) 

H (11.21 ETIE E 
wh = PUP Ti 人 了 = YP = ... 

并 上 最 后 可 以 写成 

m = g" P (11.22) 
Hp a ARAS E EAA E. ELE, Markov 链 在 时 刻 n 状态 分 布 向 量 为 初始 状态 
分 布 向 量 rw” 和 随机 算 隆 P 了 的 n TRA IER. 

令 pdr PB PoCR. 假 资 随时 间 = BAC AR, pl PBF SI 无 关 的 x， 其 

中 zx, 六 状态 j 的 稳 态 概 浴 。 相 应 地 ， 对 十 太 的 n, E PR FRSA, FY 
FERA 


T Ñ TA JE 

. | TM Ry ity ria 
imP =) | ofal., (11.23) 

me a E 2 a 

T] T ana Tg TT 


HEF mets lH a, m, ct. m 构成 AMRGA (11.22) RR ed — Bl Ss J 
Lae: = L| = 0 
因为 由 定义 3) a? = 1 ， 初 始 分 布 的 独立 向 量 满足 这 个 条 件 。 
现在 我 们 可 以 叙述 关于 Markov 链 的 遍历 定理 如 下 (Feller,1950; Ash, 1965): 


设 一 个 遍历 且 不 可 的 的 Markor 链 具 有 状态 x, x2, °°, xg PERA P= ipis ABA, 
该 链 有 惟一 的 平稳 分 布 ， 可 以 由 人 性 一 初 让 态 收 误 到 它 ;， 也 就 是 说 ， 存 在 惟一 一 组 数 jzr i 使 


得 
l. lim py = 可 对 于 所 有 i (11.24) 
2.n, > 各 对 于 所 有 j (11.25) 
A 
3. >in, = 1 (11,26) 
Tal 
K 
4.n,= Dinp, 对 于 | = 1,2,°°,K (11.27) 
r=] 


WA, REA Markov 链 为 非 周期 不 可 约 的 ， 存 在 iz1i1 满 足 式 (11.25) 至 {1},27)}， 那 
么 该 链 是 遍历 的 ，XK; 由 式 (11.24) 给 出 ， 状 态 j 的 平均 常 返 时 间 为 o 


概率 分 布 函数 |rx.15, 称 为 不 变 分 布 或 乎 稳 分 布 。 这 样 命名 是 因为 它 …- 旦 建立 ， 将 永远 保 
H BREDE, RITANA: 
。 从 任意 初始 分 布 开始 ， -个 Markov 链 的 转移 概率 将 收敛 于 一 个 平稳 分 布 ， 只 要 这 个 
平稳 分 布 存在 。 
。 EFDA Markov 链 的 平稳 分 布 独立 于 它 的 初始 分 布 。 
例 11.1 考虑 一 个 Markov 链 ， 上 其 状态 转移 图 由 图 1-1 描绘 ， 它 有 两 个 状态 r M a. 
链 的 随机 年 阵 为 
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toe pte 


它 满 是 式 (11.4) 和 式 (11.5) 的 条 件 。 假 设 初始 条 件 是 x* =|[ 二， 字 ] 、 由 式 (11.21) 我 们 发 现 
在 时 刻 n = 1 状态 分 布 向 量 为 


PE IL-1 1 14.1 的 Markov 链 的 状态 转移 图 


FERRIERE P HRN n = 2,3, 4, RNA 
Ba a | 


0.3750 0.6250 
p hone ea 
0.3999 0.6001 
em 
”二 10.4000 0.6000 


因此 m =0.4000 AI m =0.6000。 在 这 个 例子 d ， 平 稳 分 布 的 收 伍 基本 上 在 n =4 次 迁 代 就 完 
成 了 。 由 于 7 Ma BATS, AVAL RIB, FARA. TERE 
非 启 期 的 ,这 是 因为 使 (P'"), > 0 的 所 有 正 整数 = 的 最 太公 约 数 等 于 ] ,因此 我 们 得 出 结 
i, PA 11-1 所 示 的 Markov 链 是 遍历 的 。 a | | 





例 11.2 考虑 随机 算 阵 具有 某 些 零 元 素 的 全 一 一 一 一 
Markov $£, QN x 
0 0 I E / 
1 ll o Z>, 
P=|3 6 2 i / , P 
3 E 0 ™ (ag) 
4 4 


该 链 的 状态 转移 图 由 图 11-2 Fe. 医 11-2 例 11.2 的 Markov SERRATE 


应 用 式 (11.27) 得 到 下 列 联 立方 程 组 ， 


] à l | i 
TT] 一 aoe + 4 Ma = 6” 十 qem = Wy 路 a 54 
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HEFa, m Aen, WA, FRE 
m = 0.3953, m = 0.1305, m = 0.4652 


这 个 给 定 的 Markov HE peo PH 它 的 平稳 分 布 出 Ty > M Fil Ta XE Xo E 
状 恋 
状态 分 类 j 
TERTRE AY Fe E, FR EL RAR a oN 
态 所 属 的 类 进行 小 结 ， 如 图 11-3 所 示 #6 iB 
(Feller, 1950; Leon-Garlin, 19941。 这 个 图 还 a aw Si 
包括 状态 由 关 的 长 期 行为 。 i 
EWH FHE 
细节 平衡 原则 "50 
式 (11.25) 和 式 (11.26) 仪 仅 强调 数值 a N on 
x, APR. HCL. 27) eR, AAA lim p," =n; lim p, = dn, asna 


i? 


可 约 的 Markov 链 必须 满足 它 ， 从 人 而 也 就 有 其 中 4 是 大 于 | 的 整数 
十 稳 分 布 季 在 。 式 (11.27) 可 以 认为 是 一 阶 。 图 11.3 Markov 链 的 状态 分 类 及 它们 相应 的 长 期 行为 
太庙 动力 学 中 的 细节 平衡 原则 的 重新 陈 
述 。 细 节 平 衡 原则 表明 ， 在 热平衡 中 任何 转移 的 发 牛 率 等 于 对 应 的 道 转移 的 发 生 率 ， 可 表达 
为 (Reif ,1965 ) 

Tp, = Ty, (11.28) 
为 了 避 出 式 (11.27) 的 关系 ， 我 们 可 以 对 等 式 的 左边 进行 求 和 如 下 . 

24 TPs = > (Fy) = (pi), = A 
SANT PRIMA TA ee, ARS AAH T — Markov 链 的 转移 概率 
PERRI (411.15), KP PXT i Al; 的 作用 ); 
注意 细节 平衡 原则 意味 善 分 布 jr | 是 一 个 平稳 分 布 。 


11.4 Metropolis 算法 


至 此 我 们 弄 清 了 Markov 链 的 构成 ， 我 们 将 应 用 它 爸 成 一 个 模拟 物理 系统 演化 到 热平衡 的 
随机 算法 。 这 个 算法 称 为 Metropolis 算法 (Metropolis et al. ,1953}。 它 是 Monte Carlo 方法 的 一 种 修 
改 ， 在 早期 的 科学 计算 中 Mone Carlo 方法 是 对 大 量 原 子 在 给 定 温度 下 的 平衡 态 的 随机 模拟 。 

WEL X, ZTE 一 Markov 链 在 时 刻 n 的 状态 为 4,。 我 们 随机 生成 新 的 状态 xj, 
EAR APR et OY, 的 一 次 实现 。 假 设 生成 这 个 新 状态 满足 对 称 条 件 ; 

PY, SN, Sa eS PO Se ee we) 
令 AE 表示 系统 从 状态 五 = x; 到 状态 Y, = x 所 产生 的 能 量 差 。 如 果 能 量 差 为 负 ， 则 这 次 转 
移 导 致 一 个 较 低 能 基 状 态 日 这 次 转移 被 接受 .这 个 新 状态 也 就 接受 作为 算法 下 步 的 起 点 ， 即 
RAINS X= 和。 及 之 如 果 能 量 差 AE 为 下 ， 这 时 算法 以 概率 方式 进行 处 埋 。 首 先 ， 我 们 
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EAERAKO, 4p BL E. WE & < exp( -AE/T), Hp T HBR i 
E, BRR Y= Y AM, HBHP, BX. sX 基 旧 的 配置 被 算法 的 下 
一 此 重新 利用 。 
转移 概率 的 选择 
对 任意 Markov 链 ， 疏 它 有 上 先 验 转移 丹 率 ， 记 为 tr, ， 它 满足 二 个 条 件 : 
1. aE it: toeO XIA, j) 
2. 归 一 化 : Sir, = 1 对 所 有 i 
3. 对 称 性 ， Ty = TR STATA Ci) 
令 x, 表示 Markov 链 在 状态 x,, i=1, 2, <7, K PARRA, AmE E 
义 的 对 称 的 r, 和 概率 分 布 比 n/n, CHAAR BA EB 48 BS ES ( Beckerman, 1997) : 
TES 对 于 二 <} 
Dy = | (11,29) 
Ti 对 于 一 == | 
为 了 确保 转移 概率 归 一 化 为 单位 1， 我 们 引信 无 转 称 概 率 的 附加 定义 ， 
Dy =t + Dy(t-=)=1- Saye, (11.30) 
RF a ERSE, EXA 
a, = min 1, =] (11.31) 
惟一 疝 需 解决 的 要 求 是 怎样 选择 比值 rri。 为 满足 这 个 最 求 ， 我 们 选择 概率 分 布 使 得 
所 得 的 Markov 链 收 敏 到 .一 个 Gibbs 分 布 ， 表 示 为 
al | = 
T, = “exp 一 T 
这 时 概率 分 布 比 ra, 取 简 单 形 式 


M AE 
=i exp| - T (11.32) 
其 中 AER=E - £, (11.33) [557 


利用 概率 分 布 比 可 以 排除 对 痢 分 函数 Z 的 依赖 。 

根据 构 人 次， 转移 概率 是 非 负 的 且 归 整 化 为 单位 1， 如 式 4HL.i4) 和 式 (44.1$) 的 要 求 。 进 
一 步 ， 蕊 们 满 吓 由 式 (11.28) 所 定义 的 细节 平衡 原则 。 这 个 定律 对 热平衡 是 一 个 充分 条 件 。 
为 了 说明 满足 细节 平衡 原则 ， 我 们 给 出 下 列 的 考 潮 ; 

情况 1: A <0。 假设 从 状态 x, 转移 到 状态 x ， 能 量变 化 AE ARs AROLD 
发 现 ne, > 1， 所 以 利用 式 (11.29) 得 到 


Rp = i, Ci aT Ci 
Hi ceri ele 
wp = 4; x Tay TT 
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因此 当 AE <0 RATEN E o 
情况 2: AE >0, 假设 从 状态 x, BURA x 的 能 量变 化 AE WE, RHR ÆN n/n, } 
<1]1, 利 用 式 (11.29} 得 到 


F 
= a = = 
Ty = „(7 z, = te =t 
t 


| Tif, T Ri, 
这 里 又 在 出 细节 平衡 原则 得 到 满足 。 

条 了 完整 起 见 ， 我 们 需要 指出 由 r, 表 下 的 先 验 转 向 概 许 的 憾 有 用。 这些 和 转移 概率 事实 上 
是 Metropolis 拭 法 中 的 随机 步 的 概率 模型 ， 由 前 面 给 出 的 算法 描述 ， 我 们 问 已 随机 步 后 面 足 
随机 决策 。 因 此 可 以 得 出 结论 ， 利 用 通过 和 由 先 验 转移 概 兴 zt, 在 式 (11.29) 和 式 (11.30) 定 义 的 
转移 概率 p APE AED n; 对 Metropolis 算法 米 说 确实 是 正确 的 选择 。 

值得 注意 的 是 由 Metropolis 算法 产生 的 平稳 分 布 并 不 惟一 诡 定 Markov 链 。 平 稳 态 时 的 
Gibbs 分 布 也 可 以 利用 其 他 更 新 规则 而 不 是 Metropolis 算法 的 Monte Carlo ARIF 4 . 例如 利用 
由 Ackley et al.(1986) 提 出 的 Boltzmann F 4Y WME; 这 个 规则 将 在 11.7 节 中 讨论 . 


11.5 模拟 退火 


壮 庶 鼠 找 一 个 低能 量 系统 的 问题 ， 其 状态 由 -个 Markov 链 排 序 。 由 式 (11.11) 观 察 到 当 
WE TELTE, RAHAA HR F 趋 近 平均 能 量 < E>. 由 了 < 五 > ， 我 们 观 餐 利 由 自由 
能 量 最 小 化 原则 ， 该 Markov 链 的 平稳 分 布 即 Gibbs 分 布 ， 当 TO MDH SIDER GER < E> 
全 局 极 小 庶 。 换 条 话说， 序列 中 的 低能 状态 在 伏 温 时 受到 更 强 的 支持 。 这 些 观 察 促使 我 们 提 
出 问题 : 为 什么 不 简单 地 应 用 Metropolis 算法 产生 大 量 的 代表 该 随机 系统 在 很 低温 度 下 的 构 
形 (Configuration)? 我 们 不 握 介 使 用 这 种 束 略 是 因为 在 很 低温 度 下 Markov 链 到 热平衡 的 收 襄 速 
度 特别 慢 。 而 提 商 计算 效率 汗 好 的 方法 是 在 较 高 温度 运行 随机 系统 ， 这 时 达到 平衡 态 的 收 合 相 
当 快 ， 接 着 随 温度 的 精细 下 降 保 持 系 统 的 平衡 态 。 也 就 是 ， 我 们 使 用 两 个 相关 成 分 的 组 合 : 

* 一 个 饮 定 温度 下 降 速 度 的 调度 表 

”一 -个 算法 一 一 如 Metropolis 算法 一 一 送 代 求解 每 个 调度 表 给 出 的 新 的 温度 下 的 平衡 分 
布 ， 这 时 利用 前 面 温度 时 的 最 终 状 态 作为 新 温度 时 的 起 始点 。 

我 们 刚才 提 到 的 两 步 格 式 是 被 广泛 使 用 的 以 模拟 退火 中 著称 的 随机 徐强 技术 的 精华 
(Kirkpatrick et al. ,1983)。 这 个 技术 的 名 字 呈 类 上 比 物理 /化 学 中 的 退火 过 程 得 到 的 ， 在 物理 /化 
学 的 退火 过 程 中 ， 我 们 从 高 温度 开始 退火 过程 ， 接 着 慢 慢 降低 温度 间 时 保持 热平衡 ， 

模拟 退火 最 初 的 目标 是 寻找 刻 划 复杂 大 系统 的 代价 函数 的 全 局 极 小 点 “。 正 是 因为 如 
此 ， 它 提供 个 求解 非 凸 最 优化 问题 的 有 为 工具 ， 这 由 下 面 的 简单 想法 有 所 导致 

当 优 化 一 个 非常 复 攻 的 大 系统 ( 即 具 有 许多 自 宙 度 的 系统 ) 时 不 要 求 总 是 下 降 而 是 斌 图 要 
求 大 部 分 时 间 在 下 降 。 

BTU KEA A TAA SETA CIE A I 
。 算法 不 会 陷入 局 部 最 小 ， 因 为 当 系 统 在 非 零 温 度 上 运行 时 脱离 局 部 最 小 总 是 可 能 的 ; 
© 模拟 退火 是 目 适 应 的 ， 在 高 温 时 看 所 系统 的 终 态 的 大 致 轮廓 ， 而 它 的 具体 细节 在 低 
温度 时 才 呈 现 出 来 。 
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退火 进度 表 
好 前 面 提 到 了 的， 模 氢 退火 过 程 的 基础 是 Metropolis PUK. HEDRE Tigle PR. EHE 
训 ， 温 度 了 起 调节 参数 的 作用 假定 温度 下 降 得 不 比 对 数 更 快 ， 则 模拟 退火 过 程 将 慨 合 于 
-个 共有 最 小 能 量 的 构 形 ， 遗 憾 的 是 这 种 退火 进度 太 慢 了 一 一 慢 得 不 切实 用 。 实 际 上 ， 我 们 
必须 求 请 于 算法 的 渐进 收 伍 的 有 限时 间 逼 近 ， 这 种 逼近 所 付出 的 代价 是 算法 不 再 以 概率 1 保 
证 找到 至 局 最 小 品 。 然 而 算法 的 逼近 结果 在 许多 实际 应 用 上 能 产生 近似 最 优 解 . 
为 了 实现 模拟 退火 算法 的 有 限时 间 逼 近 ， 我 们 必须 设 定 -- 系 列 摔 制 算法 收 伍 的 参数 ， 这 
焉 参数 组 合成 有 所 谓 的 返 火 进度 名 或 冷却 进度 表 ， 退 水 进度 表 设 定 一 个 温度 的 有 限 序列 值 ， 以 
及 每 一 温度 值 下 有 限 的 转移 党 试 的 次 数 。Kirkpatrick et al. {1983) 给 出 的 退火 进度 表 的 感 兴 值 
Swit ink : 
* 温度 的 初始 值 ， 温度 的 初始 值 n 选 得 足够 高 使 得 所 有 提出 的 转 称 实际 都 能 被 模拟 进 
火 算法 所 接受 。 
" 温度 的 下 降 。 一 和 股 地 说 ， 冷 却 是 按 指 数 形式 完成 的 ， 并 旦 温度 值 的 改变 量 都 很 小 。 
Pals, TE Rae A 
T, = af..;, k= 1,2,7 (11.34) 
Hit 小 于 但 接近 于 1。a 的 典型 值 介 于 0.8 和 0.99 Sil, WERE, Ae Ae 
称 的 尝试 ， 使 得 平均 每 次 实验 有 10 次 转移 被 接受 。 
. 湿度 的 最 后 值 。 如 果 在 三 次 相连 的 涯 度 下 没有 得 到 预 期 的 接 疲 次数， 则 系统 被 江 结 
HiEB Xf Ik. 
后 一 个 标准 可 以 改进 + 要 求 接受 率 小 于 -预定 值 fjJohnson el al, 5 1989 } x 而 接受 率 定 从 为 转移 
接受 的 次 数 除 以 提出 转移 的 次 数 ，。 


模拟 退火 用 于 组 合 优 化 


异 拟 退火 特别 适用 于 解 组 合 优化 问题 。 组 合 优 化 的 目标 是 针对 有 很 案 可 能 解 的 月 限 离散 
系统 ， 最 小 化 它 的 代价 图 数 。 本 质 上 讲 模拟 退火 利用 Metropolis 算法 通过 多 粒子 物理 系统 和 
组 合 优 化 问题 间 的 类 比 产生 一 系列 解 。 

在 模拟 退火 中 ， 我 们 把 式 (11.5) 的 Gibbs 分 布 中 的 能 量 已 解释 成 为 数值 的 代价 ， 而 温度 
T 人 解释 为 控制 参数 。 在 组 合 优化 问题 中 对 每 一 构 形 赋予 一 数值 的 代价 以 描述 这 个 特殊 的 构 形 
和 和 解 的 差异 。 模 拟 退 水 程序 中 下 一 个 钾 要 考虑 的 问题 是 如 何 确 认 构 形 利 从 已 有 构 形 以 局 部 方 
APESE. AAE Metropolis 算法 发 挥 作用 的 地 方 。 因 此 我 们 概括 统计 物理 的 术语 和 
a Heb ARB Ia) Ae ROE 11-1 Beckerman, 1997 ) 

表 11-1 综 计 物理 与 组 合 忧 化 之 间 的 对 应 


统计 物理 纽 合 优 化 
样本 问题 实 馈 
this (FOIE ) HE 

BE At 代价 函数 
ia E 控制 参数 
Ag 5 HE E 最 小 代价 


AE sas t fe LTT 
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11.6 Gibbs 抽样 


类 似 Metropolis BYE, Gibbs RO 生成 一 个 Markov 链 ， 它 以 平衡 分 布 作为 Gibbs 分 布 。 

但 是 Gibbs 447 & MIPE EK e TEP PAY (Geman and Ceman,1984)。 在 最 后 的 分 析 电 ， 
关于 Cibbs 抽样 和 和 Metropolis 算法 的 选择 坡 岂 于 基体 问题 的 技术 细节 。 

为 了 继续 描述 这 个 手 样 格式 ， 考 上 嵌 一 个 && 维 的 随机 向 量 X, MAE OX, Xn. cr OM 
构成 ， 仿 定 仁 给 定 自 的 续 他 分 量 时 我 们 知道 X, 的 条 件 分 布 , kal, 2,070, Ks AIIAN 
的 问题 是 ， 对 任何 六 ， 专 样 获得 随机 上 灾 量 总 的 边缘 密度 的 数值 估计 。 对 匈 机 向 量 尼 的 每 个 
Sy tt, EEA XR id (ORE, Cobbs 抽样 器 对 它 的 条 件 分 布 产 生 一 个 值 。 特 别 
H, MERHED x 00) ,x00) a OAR, RITTE Gibbs 抽样 的 第 一 次 迭代 时 做 下 列 采 
FE: 

«, DEEH t0), x,(00, «+, « ORR OX, 的 分 布 产 生 的 采样 ， 

“(ETE Mx, (1), (0), =, x, (OA ,的 分 布 产 牛 的 采样 。 


xe (Eze TELL x, C1). ot, Cd, ee CO), or, x COD TX, 的 分 布 产 牛 的 采样 。 


xxt1) 是 在 已 期 xkl), *3(1), Ea xr- DETAR Ax 的 分 布 产 生 的 采样 。 

硅 第 -次 迁 代 和 其 他 的 每 次 抽样 沈 代 中 我 们 用 这 种 方式 进行 处 理 。 以 下 两 点 需要 特别 注 
=a 

1, 随机 问 量 X PBS ae BL AAR A, Fee eR BSE 天 个 新 的 变量 
{H 

2. Xi F k=2, 3, mis Aa TEX} X 4 APA Be 4 eS YX, YOST eA. 

由 这 个 讨论 我 们 看 到 Gibbs RAEI Be. MAEHE on RE, FRAT 
PK TEE: Xita), Ain), e, Xn). 在 相当 温和 的 条 件 下 ， 以 下 三 个 定理 对 
Gibbs 抽样 成 立 (Geman and Geman, 1984; Gelfand and Smith, 1990). 


1. KAEH, F k=l, 2,07, Ko Bn 趋 于 无 穷 大 时 ,随机 变量 Yn MRS RAF 

X, 的 真实 概率 分 布 ; 也 就 是 说 ， 
lim PX gx |x,(0)) = Fy (x), k= l,2 pe, K (11,35) 

其 中 Fy GA 和 HLEDA AR. 
事实 上 ， 在 Geman and Geman{1984)'P HEM] J GR AYR, RRA, ABER AAPL St X HO 
个 分 量 以 月 然 顺序 被 重复 访问 ， 任 意 的 访问 方式 只 归 不 依 御 于 变量 的 值 甩 各 的 每 个 分 量 被 
“无 限 地 经 东 Vile}, Wl) Gibbs 抽样 收 人 证 性情 成 立 。 

2. KARETE, MILE E X (a), Erh 7, Xen) MRSMBEPAY n 的 几何 级 
MERKATA, XL, Ny HRS RH 


这 个 定理 假设 系 的 分 量 以 自然 顾 序 访问 。 但 是 当 使 用 以 任意 的 得 无 厄 好 经 常 沪 问 时 ， 这 样 
收 莹 速度 帘 要 较 小 的 调整 . 
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3; i fe FE, RP 4E Ty HY eo MY A Ae Aia Aas mT Ax ay 可 测 ve ak e, € ta HR FF 
E, ADA 
lim 一 D gO GD BO XG) > BL eX Xt XA) (11.36) 
bi i=] 
ARE 1]( 即 几乎 肯定 ) 实 现 . 


Hel E E ERAT EE APA) Gibbs 来 样 的 输出 获得 所 期 望 的 边 绿 密度 的 数值 估计 ， 

TE Boltzmann 机 中 使 用 Gibbs 采样 对 有 关 隐 藏 神经 元 的 分 布 进 行 漆 样 ; 这 种 随机 机 器 将 在 
于 一 节 讨 论 。 对 于 使 用 二 值 单 元 的 随机 机 器 ( 即 Botzmann 机 ) 来 说 ,值得 注意 的 是 Gibbs 采样 
正好 和 Metropolis AER -个 变 体 完全 一 样 。 在 Metropolis 算法 的 标准 形式 里 我 们 以 概率 1 下 
lit, RITE Metropolis 算法 网 另 一 个 形式 里 ， 我 们 以 1 或 能 量 差 的 指数 ( 即 上 出 规则 的 补 
FARCE Pil, FANT, RPT RE 吾 或 妃 没 有 变化 时 ， 则 这 个 变化 被 接 
Z WREEF R TRE, E epl- 4) 的 概率 被 接受 ， 否 则 被 拒绝 ， 而 以 上 昌 的 状态 重 
复 (Neal,1993) - 


11.7 Boltzmann 机 


Boltzmann 机 是 由 随机 神经 元 组 成 的 随机 机 器 ， 随 机 神经 元 如 第 1 章 所 讨论 的 那样 ， 以 
概 府 方式 取 两 个 可 能 状态 之 一 。 这 两 个 状态 可 以 指定 为 + 1， 表 示 “* 升 "状态 ， 指 定 为 ~1 表 
IN R 状态 ， 或 分 别 用 1 和 0 表示 。 我 们 将 采用 前 面 的 记号 。Holtzmann 机 另 一 个 突出 的 特征 
腻 是 它 的 神经 元 间 使 用 对 称 的 突 和 触 连 接 ， 这 种 形式 的 窒 触 连接 也 有 统计 物理 方面 的 考虑 。 

Boltzmann 机 的 随机 神经 元 分 成 两 部 分 功 
能 组 ， 如 图 11-4 所 示 为 可 见 部 分 和 隐藏 部 
分 。 可见 神经 元 “提供 网 络 和 它 运行 环境 之 
国 的 一 个 界面 。 在 网 络 的 训练 阶段 ， 所 有 上 吕 
风神 经 元 都 被 拱 制 在 环境 所 决定 的 特定 状态 。 
为 一 方面 ， 隐 城 神 经 元 总 是 自由 运行 的 ， 它 
们 用 来 解释 环境 输入 向 量 包 人 澡 的 固有 约束 。 
隐藏 神经 元 通过 捕获 箱 制 向 量 中 的 向 阶 统计 
相关 来 完成 这 项 任务 。 这 里 所 所 述 的 网 络 代 
表 Boltzmann 机 的 一 种 特殊 情况。 它 可 以 看 成 
FE XT FER ce HS ot ER I zy, 图 11-4 Boltamam 机 体系 结构 图 ,天 为 可 见 神 
坊 确 年 概率 分 布 决定 于 在 可 见 神经 元 上 以 合 经 元 数目 , 工 为 隐藏 神经 元 数 日 
TE A TE ES a Rk, ORE, Ph BE a H 
式 完 成 (pattem completion) 的 作用 。 特 别 地 ， 当 -部 分 携带 信息 的 回 基 箱 制 在 可 所 神经 元 的 子 
集 上 ， 如 有 打 了 网 络 已 经 恰当 地 学 会 了 训练 分 布 ， 这 时 网 络 能 够 对 番 下 的 可 见 神 经 元 网 络 给 出 它 
们 的 恰当 的 值 ， 起 到 模式 完成 的 作用 (Hinton,1989 )。 

Boltzmam 机 学 习 的 主要 目的 是 产生 一 个 神经 网 络 ， 根 据 Boltzmann 分 布 对 输入 模式 进行 
正确 的 建 模 。 在 这 种 学 习 的 应 用 中 ， 作 了 由 个 假设 : 

。 每 个 环境 输入 疝 量 (模式 ) 苦 续 足 够 长 的 时 间 ， 交 许 网 络 达到 趟 平衡 . 

*。 环境 回 其 箱 制 在 陨 络 可 了 网 单 元 上 的 次 序 是 没有 任何 结构 的 。 
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ARER A EL SH ARS E CRR A hiai ED) A aE R 
CEMARA ti) FS aT AR AS ER oO, FI aa SEEN 一个 宛 整 
模型 。 一般 情况 下 ， 除 非 隐 藏 单元 数 且 是 可 见 单元 数目 的 指数 ,不 可 能 得 到 完整 模型 。 但 
是 ， 如 果 环 境 有 规则 的 结构 .网 络 利 用 隐藏 单 元 捕获 这 些 规 则 ， 这 时 利用 较 小 的 能 处 理 的 隐 
藏 神经 元 数目 可 以 对 环境 取得 -个 好 得 匹配 ， 


Boltzmann 机 的 Gibbs 抽样 和 模拟 退火 


4> x ER Boltzmann 机 的 状态 间 量 ， 它 的 分 量 x, 表示 覃 经 元 i 的 状态 。 状 态 代表 随机 
HE X 的 -次 实现 。 从 神经 元 i 到 神经 儿 j 的 突 触 连接 记 为 w;， 满 是 : 
w, = w; WAC. ) (11.37) 
利 w, =O 对 所 有 i (11.38) 
ACLI FRAT ARE TIAA. 38) SR it a EY LA a A A TA + 1 Ta 
到 神经 元 六 对 所 有 WERE ww 表示 。 
JAY Fh HAE, Boltzmann 机 的 能 量 可 定义 为 


E(x) =- > D Drs (11.39) 


利用 (11.5) 的 Gibbs 分 布 ， 我 们 可 以 定义 网 络 (假定 处 在 温度 7 的 平衡 态 ) 在 状态 x 的 概率 如 
Zz 





P(X =x) = 了 eml -| (11.40) 


其 中 Z 为 训 分 函数 。 
为 了 简化 表示 ， 定 义 单个 事件 4 及 联合 事件 8B 和 CC 如 下 : 
A:X, =x, Bj = A asla Cl 
KRE, KOSH BARRA, MKATE C 包括 4 MB, BERRE CATA 的 边缘 概率。 
Bo, MY AGsK(11.39) 2011.40), Ta Se 


PCC} = PCA,B) = zelar Dein i} (11.41) 


P(B) = SP(4,B) = i Delp De (11.42) 


在 式 (11.41) 和 式 (11.42) 中 的 指数 可 以 表示 成 两 项 之 和 |， 一 项 和 有 关 而 男 一 项 与 x; 无 关 。 
OLA x, 的 项 为 


Deir 
相应 地 ， 给 定 B， 置 % = = 1， 我 们 可 以 给 出 4 的 条 件 概率 
P(A,B) l 
POA | B) = = 一 一 一 
P(B) i+ exp| s 7 oa 
也 就 是 可 写成 P(X, = x FAX, = nl) = o( Dyes] (11.43) 
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EE TH tf OF AGE POD Pe © pIE 4} 
其 中 of) ATE EILH sigmoid a, AAA 
ply) = — — -一 (11.44) |565] 
EE a BPA 4 | A 1 ATE, HH y 
充分 大 时 ， 乏 个 变量 v = Dga Ept ny 
E- © Al + ow fol M4, OOS 11-5 所 描 
ze. (ART PERL, TERE SSE CLL.A3) aT, A 
fg oP PA Z, It aay, At 
PHER SAAT A 2 是 不 现实 
的 ， 
利用 Gibbs 抽样 考 示 联合 分 布 PCA, 
8)。 基 本 上 ， 如 11.6 节 上 所 解释 的 那样 ， 
这 个 随机 模拟 开始 时 给 网 络 赋 这 任 一 状 
人 态 ， 神 经 元 以 它们 的 自然 顺 厅 依次 重复 访问 ， 每 次 访问 ， 选 择 一 个 神经 元 ， 根 据 其 他 神经 元 
的 值 确定 起 神经 元 状态 新 值 的 选择 概 众 。 假定 这 个 随机 模 氢 进行 足够 长 的 时 间 ， 则 网 络 将 于 
到 在 温度 TOF RPE A 
半幅 的 是 刘 达 热 平衡 的 时 间 可 能 非常 长 。 为 了 克服 这 个 困难 ， 如 同 在 11.5 节 所 解释 的 
那样 ， HB PRY he FE yI] To: Liss ener Penal s 使 腿 模 所 退火 。 EF Hl He, ih BS BR A A 
高 的 值 T, AU A Ike Kee me 然后， 温度 TREE RAT... aAA 
HOS RE HA BIE ae a 


Boltzmann 学 习 规 则 


因为 Boltzmann 机 是 一 种 随机 机 器 ， 它 自然 依赖 于 用 概率 论 评价 其 性 能 。 这 种 标准 之 一 
ERRER, TEEL, WERKA], Boltzmann 学 习 的 目标 是 最 大 化 似 然 哟 数 
或 等 价 的 对 数 似 然 函数 ， 

Oo 表示 感 兴趣 的 概率 分 布 抽样 所 组 成 的 训练 样本 。 假 设 它 们 都 是 二 值 的 ， 训练 样本 允 
许 重 复 ， 但 必须 和 它们 发 生 的 概率 成 比例 。 令 状态 向 量 x 的 子 集 x, 表示 可 见 神经 元 状态 。 
向 量 x 的 剩余 部 分 x, 表示 隆 藏 神经 元 的 状态 。 状 态 向 量 x, x, Al x, 分 别 表示 随机 向 量 X, 
X, 和 X 的 实现 ，Boltamann 机 的 运行 分 成 两 个 阶段 ， 

* 正 向 阶段 ， 此 时 网 络 在 箱 制 乓 镑 下 ( 即 在 训练 集 5 的 直接 影响 下 ist. 
” 负 向 阶段 。 古 第 二 阶段 ， 网 络 介 许 自由 运行 ， 因 此 没有 环境 输入 。 

对 整个 网 络 给 定 突 触 间 权 值 w， 可 见 神 经 元 状态 为 % 的 概率 是 P(X =x). PRET H 
BS ATA x. 假定 它 们 是 统计 独 妆 的 ， 总 体 的 要 这 分 布 是 析 因 分 布 [1,eF P(X, = 
Ko ATS ERS RR ae LL(w)， 对 析 因 分 布 取 对 数 且 将 v 看 作 未 知 的 参数 向 量 。 我 们 
因此 可 以 写成 





i 


il-5 sigmoid- EHS Pir) 


E(w) = log || P(X, =x) = 5) logP(X, = x) (11.45) L366) 
x ET 


ced 


AY Ys BE et PE A a POX, = xe) 的 表达 式 ， 利 用 以 下 阿 点 : 
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* Arh (11.40), ee P(X =x) SF expl ~ ECx}iT) 
。 HEX, AAA at x Sel ay eo RSS x, FU Te a OR AS x, BEK 
组 合 。 因 此 可 见 神经 元 处 于 状态 x SE 的 概率 为 


P(X, = x,) = z Deel - Er) (11.46) 
其 中 随机 向 量 X, Æ XTR, Hsp eR 2 Z 定义 为 (参看 式 (1 6) ) 
A= 246% pl - ka (11.47) 


因而 将 式 (11.46) 和 (11.47) 代 入 式 (11.45) 得 出 对 数 似 然 函 数 所 期 望 的 表达 式 : 
Liw) = 2 log Sepl - | log 2 exp |- EN) (11.48) 


aw AY A PE a paw, YIX 11.39) Bra 
依据 式 (11.39)， 求 L(W) 对 加 的 微分 ， 经 过 一 些 运 算 后 我 们 得 到 下 列 结果 ({ 知 看 习题 
11.8): 








本 = (Z POG = x, |X, = X,)} xx, - 2) P(X = x) ax; ) (11,49) 
f re 
为 了 简单 起 所 ， 我 们 引信 两 个 定 
pi =< aa, > = 2) D>) P(X = wa IX, = x,) 4,9; (11.50) 
x EN iat 
和 pm =< xa, > = 3) SIP(X = x) wn, (11.51) 
K E xX 


从 宽松 章 久 上 我 们 可 以 将 第 一 项 平均 值 p: ARAKERE, apo i M 的 状态 之 间 的 
相关 性 ， 此 时 网 络 在 第 制 下 运行 或 者 说 处 于 正 向 阶段 。 类 似 地 ， 第 二 项 均值 p; 可 看 成 神经 
Ti A 的 状态 间 的 相关 性 ， 此 时 网 络 自 由 运行 战 者 说 是 处 于 负 向 阶段 。 利 用 这 些 定义 ， 我 
们 可 以 简化 式 (11.49) 如 下 : 





Er _ Lio e (11.52) 
Boltamann PE Y A) H W ERAKAR LR AR 地 (mw)， 我 们 可 以 利用 梯度 下 降 法 达到 这 一 
后， 写成 
Aw, = ie = nlp, — pn) (11.53) 
其 中 站 是 学 习 率 参数 ; 它 通过 e 和 运行 温度 了 定义 为 
(11.54) 


式 (11.53) 的 梯度 下 降 规 则 称 为 Boltzmann #9 ALA), REMAR EE SAR. 即 突 
触 权 值 的 改变 是 在 整个 训练 样本 集 都 给 出 的 情况 下 进行 的 。 

恨 据 这 个 学 习 规 则 ，Boltzmann 机 的 突 触 权 值 的 调整 仅 使 用 两 个 不 同 条 件 下 的 局 部 可 观 
测量 ,这 两 个 不 同 条 件 为 (1) 町 制 运行 , 和 (2) 自 由 运行 。 这 个 Boltzmann 学 习 的 重要 特征 极 大 
地 简化 了 网 络 结构 ， 特 草 在 处 理 大 型 网 络 时 更 是 如 此 。 另 一 个 重要 特征 是 神经 元 i 和 j 之 间 
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AE AEE A A] A TY he i A ea, EDAD DERRY OL, A 
fe ABE hio Boltzmann 学习 的 所 有 这 些 有 益 的 特征 归功 于 Hinton and Sejnowski( 1983, 1986) 的 
关键 性 见解 ， 它们 将 Roitmann 机 的 抽象 数学 模型 和 神经 开 网 络 在 以 下 两 扣 上 联系 起 来 : 

*。 扩 述 一 个 昼 经 开 的 随机 性 的 Gibbs 分 布 。 

* a Gibbs 分 布 鸣 基于 统计 狗 旦 学 的 能 量 顺 数 (11.39)。 

Dre LG A, FHM Boltzmann 学 习 规 则 的 式 (11.53) 的 了 珊 项 具有 相反 的 意思 ， 我 们 可 以 
把 相应 于 网 络 指 制 条 人 和 件 下 的 第 一 项 从 本 质 上 看 作 Hebb 学 习 规 则 ， 而 把 机 应 于 网 络 白 由 运行 
PAY AG TF ak Se 7 a, ASEH, Boltzmann 学 习 规 则 代表 重复 遗忘 和 再 学 习 规 
则 的 推广 ， 这 个 工作 是 Pippel and Krey(1987) 对 无 隐藏 神经 元 的 对 称 阿 络 所 撒 述 的 。 

BASS Boltzmann 机 学 二 算法 监 求 隐 兢 神经 元 知道 被 刺激 和 自由 活动 之 间 的 差异 ， 并 月 假 
年 有 一 :个 ( 际 医 的) 外 部 网 络 阿 隐藏 神经 元 发 信 必 和 具 知 Boltzmann HLEH, RTRA -个 
注意 机 制 的 原始 形式 (Cowan and Sham,1988) ， 这 - -点 倒是 很 有 趣 的 , 


AMPA MRA Ae eM 


TE FE H Er Be EK G OE A fia ce Boltzmann HLR MY AZ), CRP ER BY A SR 
方式 进行 席 明 ， 直 观 上 讲 ， 我 拉 相 以 说 在 Boltzmann 学 习 过 程 中 对 正 向 和 负 疝 阶段 的 要 求 归 
因 于 神经 元 状态 问 量 的 概率 表达 式 中 的 剖 分 茹 数 Z 的 出 现 。 这 样 说 暗示 着 能 量 空间 的 最 速 
下 降 方 向 和 概率 空间 的 最 速 下 降 方 问 不 一 致 、 实 际 上 ， 学 半 过 程 的 负 向 阶段 需要 考 虚 到 这 种 
基 异 (Neal,1992)， 

在 Boltzmann 学 习 中 使 用 货 向 阶段 有 两 个 主 鉴 铅 点 ， 

1. 增加 计 关 时间。 在 正 向 阶段 ， 一 些 神经 元 困 外 界 环 境 所 箱 制 ， 而 在 负 向 阶段 ， 所 有 
神经 无 都 日 由 运行 。 相 应 地 ，Boltzmann 机 的 随机 模拟 时 间 增 加 了 。 

2. TATIR. Boltzmann 学 习 规 则 涉及 两 个 平均 相关 性 之 间 的 差异 ,一 个 相关 性 
计算 正 阿 阶段 而 另 一 个 计算 负 向 阶段 。 妆 这 两 个 相关 性 相似 时 ， 抽 样品 声 的 出 现 使 得 它们 的 
ERRA EZES, 

我 们 可 以 利用 sigmoid 信 度 网 络 消除 Boltzmann 机 的 这 个 缺点 ， 在 这 类 新 的 随机 机 器 里 ， 
对 学 习 过 程 的 控制 是 利用 均值 而 不 是 负 疝 阶段 。 


11.8 sigmoid SEMA 


sigmoid 信 度 网 络 或 logistic 信 度 网 络 由 Neal 在 1992 年 所 发 展 的 ， 它 主要 是 为 了 寻找 一 种 
随机 机 器 ， 它 既 享 有 Boltzmann 机 能 学 忆 什 何 二 值 概 率 分 布 的 能 力 ， 但 不 需要 Boltzmann 机 学 
习 过 程 的 负 向 阶段 。 这 个 目标 的 达到 ， 是 用 有 向 连接 构成 的 无 圈 图 代替 Boltamann 机 的 对 称 
连接 。 特 别 地 ， 一 个 sigmoid 信 度 网 络 由 二 值 随机 神经 元 的 多 层 结构 组 成 ， 如 图 11-6 所 示 。 
机 器 具有 无 圈 的 性 质 使 得 概率 计算 简单 。 龙 其 是 ， 类 似 于 Boltzmann 机 ， 网 络 利 用 式 (11.43) 
的 sigmoid KGHA- -个 神经 元 受到 它 自己 的 诱导 局 部 域 刺激 时 的 条 件 概率 。 


sigmoid 信 度 网 络 的 基本 性 质 


令 向 量 外 由 二 值 随 机 变量 了 L, e, X HR, EEH NW 个 随机 神经 元 构成 的 -一 
个 sigmoid RERE. 在 和 中 的 元 素 X, 的 双亲 记 为 
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(11.55) 
输入 
111-6 sigmoid [AE leh 48 ta E] 
Deiett, pl X RSL X AE PR DSR: 
P(X% = x |X) = x = xa) = P(X = x | pal X )) (11.56) 


sigmoid {A BE MAR — Te A E E BE E An a A a A EA RA R A pa e E A. 
PAH, By 个 神经 元 被 油 发 的 概率 由 sigmoid AR 

P(X; = x; | pa(X,}) = of 4 wx, | (11.57) 
定义 (参看 式 (11.43))， 基 中 wi; 是 从 神经 元 i 到 神经 元 7 的 罕 触 权 值 ， 如 图 11-6 所 示 。 即 是 
条 件 概 率 P(X = x, Ipa XRF pal X ) 的 输入 加 权 和 。 因 此 , 式 (11.57) 提供 信和 度 在 网 
络 中 传播 的 基础 。 

在 sigmoid 信和 度 网 络 中 计算 概率 ， 以 下 两 点 值得 注意 : 

L.w,=0, MARA AY pal X,) 8 X, 

2.w; =0， 对 所 有 iz; 

BARUERI EMB iT BAH sigmoid E S R H EA MAGRA EE, 

EA FETE, sigmoid AR 26 JB T EXER Pearl, 1988) PB) MRA 
络 ”。 它 的 随机 运行 比 Boltzmann 机 稍微 复杂 -- 些 。 然 而 基于 局 部 可 用 信息 ， 它 们 确实 可 以 
利用 袜 率 空间 的 梯度 上 升学 习 . 
sigmoid 信和 度 网 络 的 学 习 

FTI 表 不 以 感 兴 翅 的 概率 分 布 抽取 的 训练 样本 集 。 假 定 每 一 个 样本 都 是 二 值 的 ， 表 示 一 - 
定 的 属性 。 训 练 样本 是 允许 午 娃 的， 重复 的 次 数 与 已 和 的 特定 属性 组 合 通 常 发 生 的 概率 成 正 
比 。 浆 了 对 从 其 中 拍 版 了 的 分 布 进行 建 模 ， FREQ Pb 

1. 用 一 个 状态 问 量 x 的 大 小 决定 网 络 的 大 小 。 

2, 选择 状态 同 量 的 一 个 隆 集 ， 记 为 坞 ， 代 表 训 练 时 的 属性 ， 有 即 x, 代表 可 见 褐 经 元 ( 即 评 
HE AS ea EARS [a] St 
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3, RAHE x WARR, H. RE URIBE 7G CW SR TEU BET 
Fe) AAR AS In] Be ș 

MFA EARS lol x, —> sigmoid (a HE RS BY ETT er BE RRP BY OL Ro A Be PH 
JORIAE FN A oh Al ep A a OL ee oc RS fe] AB a S BS E AZ o 

正如 Boltzmann 机 一 样 ， 我 们 好 出 sigmoid 信和 度 网 络 所 期 望 的 学 习 规 则 时 仍然 最 大 化 对 数 
似 然 图 数 ， 而 对 数 似 然 图 数 丰 出 训练 集 了 计算 可 得。 由 式 (11.45) 定 六 的 对 数 似 然 郴 数 二 wh)， 
Al PIA TT (BG MP 

L(w) = + lop P(X, = x) 


1 ET 
a 


EF w OA RA Se A ee, FARAR., JAT SCARS E s “1 


me 站 .地 一 次 实现 ， 令 jw, 表示 Wh A PocR BAM eo i BP toc SS RA (BL). 
Liw)sk wa, Fea 
aLCw) oP(K, = x,) 


ee In = 


dw 之 LP =x) X | Jw, 
下 一 步 我 们 注意 下 列 两 个 概率 关系 : 第 个 关系 


P(X, = x) = >) P(X = (Xx)) = > P(X = x) (11.58) 
4 “y 
其 中 随机 回 量 X ATETA, MARSE ax a EEKE, BOTRA 
P(X =x) = P(X =x/X, = x)P(X =x) (11.59) 


这 个 关系 定义 联合 事件 下 =x= (x, x) HE. 
根据 这 岗 个 关系 ,我们 叮 以 重新 定义 人 循 叶 数 9L(LW)A3w; 的 等 价 形 式 : 


dL(w) P(X = x{tK, = x,) dP(K = x) 
dw pp? P(X = x) Fis ane 
根据 式 411.43) 我 们 可 与 成 
P(X = x) = [| ol 2 Siw, | (11.61) 


其 中 of -) 49 sigmoid 函数 ,因此 可 3 


l r = x) Ka E 3 (2 | 


= Ly lt Dy wars | 

7 of % Sen)” 1E os | 

其 中 g CORN sigmoid AR po +) AF ER SER 阶 导数 。 Hæ, MOLARE pt BY 
定义 ， 容 易 发 现 








giv) = plv)p(— v) (11.62) 
其 中 ol- EH -e BAR pi PAY o TEI. AE, EIH 写成 
1 aP(X = 3 
P(X = x} Em x =p yq- T Quist Jaca (11.63) 


相应 地 ， 将 式 (11.63) 代 入 式 (11.60)， ara 
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i 


5/3 


410 Bll = 


bw) DPK) aLe 


wey * e7 
Arta) Pde WL, Fi ELBE 
po, = < col 一 F, Sighs JEM, > 


= a >) P(X = N | A, = x.) ¢ - 7 Spx, Jaj, (11,65) 


x oo Tg 
它 代表 神经 元 i 和 j 状态 的 平均 相关 性 乘 以 加 权 因 子 p| -2 2a Me) 。 这 个 平均 是 对 所 


Aj x, 的 可 能 值 (由 训练 集中 抽取 ) 及 x 的 所 有 可 能 值 求 得 的 ， 这 里 区 下 示 可 见 神经 元 调 x, 
表示 隐藏 神经 元 。 
在 概 闪 空间 中 的 梯度 上 升 可 以 册 定 义 突 触 权 值 w 的 增 量 改 变 


pS Ou, p 

元 成 ， 其 中 m= eA/T 为 学 习 速 度 参 数 ， 011.65) X. R(11.66)% sigmoid 45 AM 
的 学 习 规 则 。 

sigmoid 信 度 网 络 学 习 过 程 的 小 结 由 表 11-2 给 出 ， 其 中 学 习 是 以 集中 方式 完成 的 ， 即 网 
络 罕 和 触 权 值 的 改变 是 基于 整个 训练 集 作 出 的 。 由 表 11-2 给 出 的 小 结 不 包括 对 模拟 退火 的 使 
用 ， 这 也 是 我 们 置 温 度 了 等 于 1 的 原因 。 HIE, EWE Boltzmann 机 一 样 ， 如 果 期 望 sigmoid 
信和 度 网 络 学 习 过 程 更 快 到 达 热 平衡 ， 则 在 学 斗 程序 中 可 以 结合 模拟 退火 。 
表 11-2 sigmoid 信和 度 网 络 学 习 过 程 小 结 





#14840. Hs, RISE ww; 为 [ - a, aj 区 癌 内 县 名 人 芬 布 的 随机 数 ; o 的 一 个 典型 从 为 0.5， 

L EATE, AHA aes, Hp x eT, 

2. 对 每 一 个 x,， 在 某 个 运行 淋 度 了 下 执行 网 闭 单 独 的 Gibbs RAEI, FUERE A ER RAC x HEE BE 
PATERA E a OT URS PR epee] T, x ACE Eg Be UN Bet My BY Id HOM SE ES} 
4b 

, 计算 总 体 平均 值 


a 


Dy = pD SOPUN = = Ko) x,x, of - Xx, Soay) 


x Ed *q 
HMA X, PXOTB, Ersin), x RTM, x RUA, x 是 状态 测量 x 的 第 j 个 
TOC BU PE j 的 状态 )， 坟 为 神经 元 i 到 神经 元 ;的 究 触 权 值 。sipynoid PARK pl EM 
l 
| + expl- r) 
PS Se e EA Aw, = Bp ERA RARR, RRR E 
PISH SS aR SPUR aL we) PP eae A ff - 


与 Bolumann 机 不 同 ， 在 sigmoid 信 度 网 络 学 习 中 仅 需 - -个 阶段 。 这 样 简化 是 因为 状态 向 
量 的 入 率 分 布 的 归 一 化 由 sigmoid 图 数 pt : ) 对 每 个 神经 元 局 部 完成 ， 而 不 经 过 计算 涉及 所 有 
可 能 的 状态 构 形 前 分 函数 Z 的 困难 。 由 训练 集 了 中 抽取 给 定 的 % BO, 一 瑟 随 机 向 量 甘 的 
条 件 分 布 已 经 由 Gibbs 抽样 正确 地 建 模 ， 在 Boltzmann 学 习 过 程 的 负 向 阶段 所 起 的 作用 就 被 加 


ply) = 


pen 
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=< m a a ——— = SS ee = — m ———, -m a 











当 达 到 对 数位 然 图 数 LOW) Abe MAT. SCR aR fhe a Re PE, MOTEN 
AY RRR CASE; EMERI A ROR AS AE, 

TE Neal( 1992) 的 实验 结果 表明 ，(1)sigmoid fey EE P24 Be ee Sf AEF ALY a ta A BE E 
“ol, (2) HERR REA LE Boltzmann 机 有 出 快 的 学 习 率 ，(3)sigmoid 信 度 网 络 对 Bolizmann 机 
HY Re P ALS e A A BR T A EE R D BEER 


11.9 Helmholtz 机 


sigmoid [A E et — Pon A AR SESE, HU aR AED eR 
的 感知 输 和 中 的 高 阶 统 计 关 系 由 Dayan et al. (1995) Al Hinton et al. (1995) H HHA 
Helmholtz” 机 提供 另 一 个 精 巧 的 多 层 框 架 ， 可 以 不 用 Gibbs 抽样 而 达到 同样 的 目的 。 

Helmholtz 机 使 用 两 组 完全 不 癌 M 9s flit E fe EE 识别 
好 图 11-7 表示 的 两 层 的 二 值 随机 神经 元 网 络 ，。 AA E 
11-7 中 的 实 线 表示 前 问 连 接 ， 它 们 构成 识别 模型 。 
这 个 模型 的 息 的 是 推断 引起 输入 向 量 的 固有 概率 分 
Wo ÆR 11-7 PROBA RS eee, EMR 
生 模 型 。 第 二 个 模型 的 目的 是 从 网 络 隐藏 层 所 捕 扶 
的 回 有 表示 中 重 构 对 原始 输入 向量 的 下 近 ， 从 而 使 
之 能 以 自 监 督 的 方式 运行 识别 模型 和 产生 模型 以 
严格 的 前 馈 方 式 运 行 , 没有 反馈 ， 它 们 只 在 学 习 过 
程 中 相互 作用 ， 

Hinton et al. (1995 ) 村 述 一 个 称 为 "唤醒 -和 休眠 ” 
算法 计算 Helmholtz 机 的 识别 权 值 和 产生 权 值 。 正 如 





名 子 所 提示 的 ， 算 法 分 两 个 阶段 :一 个 “上 唉 醒 " 阶 段 图 11-7 出 识别 ({ 实 线 } 连 接 和 产生 
和 一 个 “休眠 阶段。 在“ 唤醒" 阶段， 网 络 由 识别 权 (AER EERE EE PRS TH ARK 
值 用 前 向 方式 驱动 。 因 此 在 第 一 个 隐 层 产生 一 个 输 en 


人 人 同 甬 的 表示 ， 接 才 第 一 个 隐 层 产生 对 第 一 个 表示 的 表示 ， 对 其 他 网 络 隐 臧 层 依 此 类 推 。 网 
络 不 同 隐 藏 层 产 生 的 表示 集 提供 网 络 对 输入 同盟 的 总 体 表示 ,， 虽 然 此 时 神经 元 是 由 识别 模型 
的 权 从 驱动， 但 症 * 吃 醒 " 芥 段 只 有 产生 模型 的 权 值 利用 局 部 可 用 信息 进行 学 习 。 实 际 上， 学 
习 过 程 的 这 个 阶段 使 得 总 体 志 示 的 每 一 居 在 重建 前 一 层 形 成 的 激活 中 都 得 到 提高 。 

EAE RR Gee, BURA ESE IL. SR PEAT koh. MoI 
Bai. 逐 层 反 回 运行 直至 输 和 人 层 。 由 于 神经 元 是 随机 的 这 个 事实 ， 重 复 这 个 过 程 - RS 
在 输入 导 产 生 许 多 不 同 的 “ 纪 想 "向 量 。 这 些 纠 想 提供 网 络 产生 模 弄 关于 弛 界 的 一 个 无 偏 抽 
样 。 产 生 一 个 “条 想 " 之 后 ， 利 用 简单 的 dela 规则 (在 第 3 章 描 述 ) 调 整 识别 权 值 ， 使 得 引起 
“AIA 的 隐藏 医 动 的 恢复 概率 的 对 数 最 大 化 ， 如 问 " 唤 醒 "阶段 一 样 , “休眠 "阶段 仅 利 用 局 部 
可 用 信息 。 

广 生 权 值 ( 即 友 向 连 手 ) 的 学 习 规 则 佐 然 使 用 简单 的 delta 规则 。 伍 是 ， 这 个 规则 洛 着 一 
程 牌 罚 对 数 似 然 男 数 的 梯度 而 不 是 对 数 似 然 函 数 的 梯度 。 惩 罚 项 是 真实 的 后 验 分 布 和 识别 模 
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=- 一 Te 
ŮĖŮ 下 ah ma 











AYE AN BY SE PRAT ARY Kullback-Leibler HIE ( Hinton et al., 1995); Kullback-Leibler Ax HE 
iA TE Bl — R A Bee pie et. KERER., FER RCS RR Ab A BT tT a EL R RRJ — 
PA, de Ree PA. Rea, Ad Re eS eb A SD SE AY 
后 验 分 布 尽 可 能 地 靠近 识别 模型 实际 计算 的 分 布 ， RAR, a a AE EE 
PRADA, PRETIZA UME - 休眠 学 习 这 程 不 能 保 肛 六 所 有 实际 场合 部 成 上 淄 ， 有 时 它 会 失 
WE 


11.10 平均 场 理 论 


搬 三 节 所 考虑 的 学 习 机 器 有 一 个 共同 揭 特 征 : 它们 都 使 用 随机 神经 元 ， 因 此 可 能 导致 学 
习 过 程 很 缓慢 。 在 本 章 的 第 三 部 分 和 最 后 部 分 ， 我 们 研究 利用 平均 芒 埋 论 为 数学 基础 导出 这 
PERE OL OL ai AY A Me RE. APRIL LARA AY, FER 
平 雪 场 理论 的 方式 也 不 相同 。 特 别 地 ， 我 们 可 以 验证 在 文献 中 被 研究 过 的 两 种 特殊 KE 
t. 相关 性 用 和 它们 的 平均 场 逼近 替代 ; 
2. 通过 变 分 原理 用 一 个 易 解 模型 替代 一 个 难 解 模 型 。 
方法 2 是 高 度 原 则 化 的 ， AEA aT KHH, EGER T° sigmoid 信任 阿 {Saul et al. 1996) 
Al Helmholtz HL (Dayan et al. ,1995)。 但 是 应 用 方法 2 到 Bolumann 机 时 非常 复杂 ， 因 为 需要 剖 
TER Z 的 一 个 土 界 .出 于 这 个 原因 ，Peterson and Anderson (1987) 启用 第 -个 证 法 加 各 
Boltzmann 学 习 规 则 .在 这 一 节 我 们 为 第 -一 种 方法 提供 理论 基础 ， 第 二 种 方法 在 本 章 后 面 考 
LR 
F ES SA BUT AY) AEE SR TR AE H Re SH AY ( Glauber, 1963), HSA ARE LA ERB ULLE 
Has Pi] 2B Ze Brag En As 2 “BS CARAS. (BE. RRA, Pee 
卢比 较 天 的 网 络 中 ， 神 经 状态 包含 比 我 们 实际 所 需要 的 多 得 多 的 信息 。 事 实 芋 ， 我 们 仅 需 要 
刘 遂 昼 经 元 状态 的 均值 或 神经 状态 对 的 乘积 的 均值 。 
在 一 个 随机 神经 元 里 ， 点 火 机 制 贞 随机 规则 描述 。 在 这 种 情况 下 ， 对 我 们 而 言 -个 合 
的 要 求 就 是 查询 神经 元 7 的 状态 i HRE, I AREER, AA REA 
RPS A e in iE a E. 对 任何 事件 ， 2 <x, > 表示 zx 的 均值 .神经 元 ;的 状态 由 概率 规 
ni 
+ 上 以 概率 Pio) 
Cy aie 


描述 ， 其 中 Plv)= re eee (11.68) 


AH T AE TTBS. PERTE ARA A eA oo, 的 特定 值 表示 均值 < x, > 如 下 : 
<x >= (+1) PCu,) + (-I)[1 - Pls) | 
= 2P(v)} -1 
= tanh(s./2T) (11.69) 
其 中 tanh(9,/27 Fb (0/27) ARH ET. 11-8 给 出 均值 < x > 对 诱导 局 部 域 o, 两 种 
图 。 连续 曲 线 对 应 于 大 于 零 的 某 个 刘 上 度 了 7， 粗 实 线 对 应 于 了 =0 的 极限 人 情况。 在 后 一 种 情 
况 ， 式 (11.69} 取 极限 形式 


(11.67) 


< > 一 sn) TT =O (11.70) 
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这 对 应 于 McCulloch-Pitts 神经 元 的 激活 部 数 . 





图 11-8 PRH < x > 关于 诱导 局 部 域 wx 的 图 ; PR 
SPM McCulloch-Pitts 神经 元 的 常 蜡 操作 

到 上 月 前 为止 ， 诗 论 集 中 在 单个 随机 神经 元 这 种 简单 情形 。 对 于 更 常见 的 情形 ， 由 大 晶 神 
经 部 组 成 的 随机 机 化 ， 这 是 一 个 朵 难得 多 的 任务 。 出 现 朵 难 归 内 于 以 下 两 个 因素 的 给 合 : 

。 神经 元 j 的 概率 PCa, ) 是 诱导 局 部 域 的 非 线 性 函数 。 

* 诱导 局 部 域 w 是 一 个 随机 变量 ， 它 受到 和 神经 元 i 的 输入 相连 接 的 其 他 神经 元 的 随 

RESINS a 

大 蛋 上 可 以 有 把 握 地 说 ， 我 们 还 没有 可 以 利用 的 数学 方法 使 之 精确 评价 随机 机 器 的 行 
为 。 但 我 们 可 以 利用 已 关 的 通称 为 平均 场 逼 近 的 近 亿 方法， 它 常常 产 牛 良好 的 结果 ,， 平 均 场 
埋 近 的 基本 思想 是 对 网 络 中 每 个 神经 元 了 用 诱导 局 部 域 w 的 平均 替代 神经 波动 zs ， 可 表示 为 


py = ev > = ( Siu, ) = Sw, Zr > {11.71} 
因此 ， 我 们 可 以 计算 由 N 个 神经 元 构成 的 随机 机 器 的 第 j 个 神经 元 的 平均 状态 <o>, TEM 
在 式 (11.69) 对 单个 随机 神经 元 所 做 的 那样 ， 可 写 为 

<x >= tanh{ 9, = tanh{ 5 < U > | = banhl 5 Dw < X > | (11.72) 
恢 据 式 (11.72)， 我 们 可 以 正式 陈述 平均 场 通 近 如 下 : 
一 个 随机 变量 某 个 二 数 的 平均 用 随机 变量 平均 的 汪 数 衣 近 ， 
MP yal, 2, 77, NV, AULD RBA N 个 未 知 基 < x, > 的 非 线 性 并 程 组 。 这 个 非 线 人 性 广 
程 组 的 解 基 一 个 易 处 理 的 命题 ， 因 为 林 知 量 是 确定 的 而 不 像 在 原来 网 络 中 它们 是 随机 变量 ，。 
11.11 确定 性 的 Boltzmann 机 


Boltzmann HF 77 Sj MEAS TORK El AMS AR, TAA Botman 学 习 规 则 要 求 计算 网 络 中 每 
一 对 神经 元 之 间 的 相关 性 。 因 而 Boltzmann 学 习 需 要 指数 的 时 间 。Peterson and Anderson (1987) 
提出 加速 Boltzmann 学 习 过 程 的 方法 。 该 方法 涉及 用 一 种 平均 妃 通 近 蔡 代 Boltzmann 学 刁 规 
则 式 (11.53) 中 的 相关 性 ， 可 表示 为 
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approx 


E > 2 24 Sea TN TE (11.73) 
PYK Be < % > PUTA Er ECL. 72 TF. 

APHRA JA A UPA EIT AE SRY Boltzmann 学 习 称 为 确定 性 的 
Bolumann 学 习 规 则 ,特别 地 ， 标 淮 鸭 Boltzmann 学 习 规 则 忒 (11.$3) 被 逼近 如 下 ， 

Aw, = UU? — UD) (11.74) 
其 中 UY 和 Ui ap BAN] OLB cy ERNEA Eak TARA A hiat F AE ae 
H, JES] RB, M Bolman 机 使 用 二 值 的 随机 神经 元 ， 但 它 的 确定 性 网 络 却 使 用 
尖 似 的 确定 性 神经 元 。 

确定 性 的 Boltzmann 机 化 标 谁 的 Boltzmann 机 在 学 习 速 度 六 提 疝 一 至 两 个 数 蝴 级 (Peterson 
and Anderson, 1987)。 但 是 ， 在 它 的 实际 上 永 用 中 仍 有 两 点 需 注意 : 

1. 确定 性 的 Baltanann 学 习 规 则 只 在 监督 情 癌 下 有 效 ， 即 当 有 些 可 见 神经 元 作为 输出 神 
绎 邢 时 。 无 监督 尝 习 完全 不 能 在 平均 场 领 域 应 用 ， 因 为 平均 状态 是 自由 运行 概率 分 布 的 -个 

2. 在 监督 学 习 的 情况 下 ， 使 用 确定 性 的 Boltzmann 学 习 限 制 在 仅 含有 一 个 隐藏 层 的 神经 
2 (Galland, 1993), MAG Lot, 没有 任何 理由 不 可 以 用 到 多 个 隐 葵 层 ， 但 在 实际 上 使 用 
多 个 隐藏 屋 导 狂 和 第 1 点 中 提 到 的 无 监督 学 习 -- 样 的 问题 。 

式 (11.74) 的 确定 性 Boltzmann 学 习 规 则 有 一 个 简单 和 局 部 的 形式 ， 这 使 得 它 易于 用 超大 
规模 混成 电路 (VLSIT) 厂 件 实现 (Alspeetor et al., 1991; Schneider and Card, 1993), fH, ££ 
Schneider and Card( 1998) PIR & AAR (EA ER SEA a, GE ME Boltzmann PLA BE se ECE 
OD FL AAR (LF A SS PERA. A A HE AB BS A A PE. 
起 振 落 ， 这 显然 是 不 能 接受 的 。 

11.12 确定 性 的 sigmoid FEMS 

{E 11.10 HRP yy A A EE TP AY RY te Re E 
fA. 对 Boltzmann 机 的 道 近 ， 由 前 一 节 讨 论 可 知 ， 平 均 场 理论 的 这 个 观点 只 有 在 限制 情况 下 
AA. 这 一 二 我 们 摘 绘 平均 场 理 论 的 另 一 个 观点 ， 它 适 台 于 sigmoid (HEA. RA 
上 ,在 这 里 发 现 半 一 个 难 解 模型 经 过 变 分 原理 可 由 一 个 易 解 模型 进行 间 近 (Sanl et al. , 1996; 
Jordan et al., 1998). 一 委 说 来 ， 吻 解 懂 型 的 特点 就 是 降低 难 解 模型 的 自由 度 。 针 对 特定 问题 
设计 出 适宜 的 上 所 请 变 分 参数 ， 扩 展 难 解 模 型 使 之 包括 这 些 附加 参数 ， 这 样 就 可 以 完成 自由 度 
的 降 慷 。 这 些 术语 来 自 植 根 于 趟 分 法 技术 的 使 用 (Parisi, 1988). 

对 数 似 然 茵 数 的 下 界 


我 们 讨论 的 出 发 点 是 式 (11.58) 中 的 概率 关系 ， 这 里 以 对 数 形 式 重 写 如 下 : 
logP(X, = x) = log X P(X = x) (11.75) 
"g 
如 同 在 11.8 7, FRA SHEL) T XA X, AX, SX, 对 应 于 可 见 神经 元 ， 而 X 对 应 于 
A. EALE X, X, AX, HEMAN x, xs Xx. MÆ, 011175) PERE 
SF ALG Rl R ee EEE), EEX E RPP OCX: = xX, =x), RETU 11.75) 
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LEAR FEE A FG ERP BF fe G0 69 EE 42] 
FES MANA OT ZR, RRP ERA A VA oe HR x PE E : 
logP(X, = x) = log 210% = x, | A, = vm | (11.76) 


这 个 等 式 写 成 这 种 形式 是 为 了 应 用 前 一 到 讨论 的 Jensen 不 者 式 。 关 于 这 个 应 用 ， 我 们 获得 了 下界; 
logP(X, = X.) = are = x, | X, = x, )log| ae 
YEP YB MIS GR AEE O(X, = 1X, =x ) 称 为 平均 场 分 布 。 
FMA VSR HY FT ACID SR BS eR. TE sigmoid (EEF DAR At, PRA OR Li wD 
SST ATA x, CHER SES AE OR A, FA PR PRB Fe A ee OR 
sigmoid (RIS REFE E. FE, RATHER, ARUL RAH BEE 
— AA EAT A, RERAN 
£(w) = logP(X, = x,) (11.78) 
其 中 w APES AR (Ae gt. MIA |) op fe A) Cid HE, SE eT A SR YS Cw) Fd aE 
据点 的 艺 (wW) 项 的 和 。 这 样 情况 下 ，FEOw) 的 定义 基本 RAIL (Ow) Se, KAS (Ow) Bf Le 
HE LC w) AJ —“P BE 
ay ES JAA ART MBSR BIER, REBELS. 
因 市 依据 式 (11.78}， 可 以 写成 


$(W) > 21 1% =x, |A, = x, lol GR = x, SL 


(11.77) 


或 等 性 地 , 
Liwa- DI} OX, = x |X, = x, )log@(X, = x | X, = x) 


"a 
+ >) OCX, = x, IX, = x, logP(X = x) (11.79) 


t, 
式 {11.729) 石 边 第 一 项 为 平均 场 分 布 0(X =X, =x A; PEERAA, SIM 
是 就 隐藏 神经 元 的 所 有 可 能 状态 对 log PCX = x) 的 求 平均 。 在 单位 温度 ， 由 11.2 节 中 对 Gibbs 分 
布 的 讨论 ， 注 意 sigmoid AE RARR E - log P(X =x). MERC 6D Fea Ot T= 1) 


P(X =x) = [| el Diw,x,} 


A Eo=—logP(X = x) =- > loge X Dyw, } (11.80) 
使 用 sigmoid MR HIE Y 
1 ep 
plr) = l + exp- v) ~ 1 +exp az 


因而 可 以 把 sigmoid fF E P24 AY AE E PR RRR A 
-之 Lanes + Lalogl + x Dats) (11.85) 


RA TRAAT 1/2, (11. 81) 的 右边 第 一 项 可 以 看 成 一 个 Markov 系统 { 即 Boltzmann #1) 
AYRE et cae, 但 是 第 二 项 对 sigmoid 信和 度 网 络 是 惟一 的， 
式 (11.79) 的 下 界 对 任何 平均 场 分 布 OCX, = 1X = 工 ) 都 是 对 的 。 但 是 ， 为 了 很 好 利用 
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E, WAAR a} Fu fe TS ATA TT RP, RT a Se FE aT BY > (Saul et al. , 1996) 
Q(X, =m 1X =x) = | (11.82) 
:ER 


其 中 3 表示 所 有 隐藏 神经 元 的 集合 ， 且 它们 的 状态 为 独立 的 具有 可 调 均值 的 Bemoulli 变量 


{一 个 Bemoulli(0) 7 % AURA 1 的 概 兴 为 9 的 二 值 随机 变量 )。 因此， 将 (ii. 红 ) 代 入 到 式 
C11.79) 我 们 得 到 (经 过 化 人 简 ):; 


ACW) =- 24th, logge; + (1 - p Jog ~ 4)) 
EH 
+ De- 3) < logl1 + exp( $) wx.) J > (11.83) 
È JEH ice Ley 


其 中 用 < .> KRA 于 半 均 场 分 布 的 总 体 平均 ORBAN /是 一 个 隐藏 神经 EC,， 式 (11.83) 右 
廊 这 一 项 是 平均 场 尽 ， 第 二 项 为 平均 场 能 量 。 这 两 项 都 是 关于 式 (J1.2) 的 析 因 分 布 的 . 
遗憾 的 是 ， 我 们 仍然 有 一 个 难 解 问 题 : 精确 计算 < logi l+ exp(z )} > 形式 的 均值 是 不 可 
能 的 。 这 项 出 现在 (11., 忠 ) 中 ， 包 语 
2 = = Lute C11. 84) 
为 了 克服 这 个 图 难 ， 我 们 重新 利用 Jensen 不 等 式 得 到 -个 界 . Bic, MEP EPLE z A 
FER E, JE < log 1 + expt sz)] > 表示 成 等 价 的 另 一 种 形式 
< log(1 + é) > = < logleVe Sl+ e)l > = E <4 >+e loge ”3 + gery S 
(11.85) 
其 中 < > 为 z 的 总 体 平均 。 其 次 ， 和 以 前 使 用 的 Jensen 不 等 式 相 比 ， 我 们 反方 问 使 用 它 ， 
这 性 可 以 得 到 式 (11 .5) 丰 边关 于 平均 值 的 一 个 车 界 
l < log] re) sa cz >+log<e p eI > (11.86) 
在 式 (11.86) 中 置 &, =0. 我 们 获得 标准 界 
< logtl+e) > = log < 1+ è > 
7E.54(11.86) 4 oni Fe RRA E, 可 得 均 伸 < log( 1 + et) > AP AD BE Ee He RY SP 
(Seung, 1995), 40 T PIR. 

例 11.3 Gauss 分 布 变量 为 了 说 明 (11.86) 所 撕 述 的 界 的 用 途 ， 考 虚 一 个 上 其 零 馈 值 量 
AEA 1 的 Gauss 分 布 灾 量 。 对 这 个 特殊 情况 ，< log(1 + et) > 的 和 精确 值 是 0.806。 在 (11.86) 
所 描述 的 界 为 era + 88-8 7) ee = 0.5 时 取得 最 小 值 0.818。 这 个 界 比 $=0 时 的 标准 界 
0.974 FR wei A fel (Saul et al. , 1996 )。 a 

加 于 上 前 的 问题 ， 将 式 111.85) 和 (11.86) 代 人 式 (11.83)7， 得 到 证 据 X, = x, (BENT TAK 
位 然 函 数 的 一 个 下 界 如 下 

$ (w) -— 24 le loge, + (1 -plogtl— p) 


+ Dp (一 名》 之 log < exp(—&2.) + expttl - )z) > (11.87) 


BoP z 由 式 (11. 324) 定义。 这 居 在 一 -个 - -个 例子 的 基础 上 计算 半数 伺 然 琢 数 世 (本 的 一 个 理想 
RJA- 
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sigmid 入 度 网 络 平 均 场 人 下 近 的 学 习 过 程 


FEF HICH SOB AIIRTISIA TAB RS Be: u GEHA E {对 所 有 站 但 没有 其 
体 指 定 它们 。 这 些 都 是 可 调 参 数 ， 既 然 目标 足 最 大 对 数 似 然 函 数 风 (w) ， 我 们 自然 选择 p 和 
的 倩 使 得 它们 最 大 化 (11.87) 的 右边 表达 式 。 为 了 这 一 点 我 们 使 用 Saul et al. (1996) 描 述 的 
BE RELE o 

FRR- -种 情形 : HÄ u, HE, MERKIR E MEZ A RU R RS w) 
最 紧 的 界 。 这 里 我 们 注意 ， 式 (11.,87) 石 边 的 表达 式 没 有 上 山 合 届 于 网 络 不 间 神 经 元 的 的 项 。 
因此 ， 关 于 & 求 表 达 式 的 最 小 值 归 结 为 在 [0，11 上 求 入 个 独立 的 最 小 人 入 ， 这 里 N 为 网 络 神 
经 元 的 总 体 数 目 ， 

FERAE: § 的 值 国定 ， 要 求 寻找 均值 4 PVE RS (Ww) 的 最 紧 的 
站。 为 此 我 们 引入 下 列 定 义 : 

K, =- Frog < exp(— Ez.) + expt tl — E Jz) > (11.88) 
其 中 随机 变量 2, 由 式 (11.84) 定 义 。 MEERE) CT. WEA K, BEES BRAS, 
对 神经 元 j 的 状态 x Re — E H sigmoid fe AAS Ae, AY 
状态 x TETRA x, BAUR KK, PARAS, RIAL 82) Ah, 我们 可 以 求 得 { - Ez) 
和 exp((1— €)) 2, UREA LH, Mik i ea K,, CHET KRATER 11-5480. 有 
T KBS, FR fT oy Cheese OEY E 寻找 参数 六 值 以 最 大 化 对 数 似 然 画 数 多 (w) 的 过 程 。 
FEY, XT p 求 式 (11.87) 的 微分 ， 令 微分 值 为 0， 重 新 调整 项 后 我 们 得 到 
cel | = dil wen, + w(t, É) + K] 
可 写成 等 价 的 形式 
m = of > [wi u, + w, (a, E) + KOJEN (11,89) 


其 中 o( +) f sigmoid AM. AFECI.80) FH sigmoid 信和 度 网 络 的 平均 场 方程 。 企 这 个 方程 中 
sigmoid 函数 的 变量 构成 神经 元 了 的 所 谓 Mako Æ, ERAF: 

* HEL i RNR., Tya wapu Ww, pty BEAR 

。 神经 元 的 孩子 的 其 他 双亲 ， 通 过 偏 导数 K 继承 。 
图 11-9 表示 神经 元 】 的 Markov Je, “Markov 层 " 的 思想 由 Pear(1988) 引 和 人; 它 说 明神 经 元 j 
WA OCALA HI ERY Lae. FA AR PY KA eT 

虽然 作为 具 实 后 验 分 布 P(X = lX = 天 ) 的 一 个 通 近 ， 在 式 {11.82) 中 选择 析 因 分 布 并 
不 焰 确 ， 但 是 平均 场 方程 (11.89) 选 择 参 数 i1 coe RAE Be SES OT REE. RE 
依次 在 一 个 例子 接 一 个 例子 的 基础 上 计算 对 数 似 然 遇 数 了 下 (w} 的 最 紧 平 均 场 界 (Saul et al., 
1996 } = 

在 计算 参数 i& 1 和 jn ! 的 更 新 值 后 ， 接 着 计算 突 触 权 值 w 的 修正 ， 使 用 公式 


Aw, = Meee! {11.90} 


f; aw, 
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的 双亲 
图 11-9 Markov 层 举 例 
EP y FBR, Bow) ATR eS (wR PA: BD Bow) Ash. 83) 4 is 
sh AAAI ZeTATK, ECR Bia Ftd Bw) /dwe, AE. 
F 11-3 给 出 sigmoid (AR AF EA UE LD KR TTT PE K; 
Al? BCw)/d w, 的 公式 。 
#11-3 用 于 sigmoid RENAE SNe 
HE. BUNA we, WD - a a ASSP AR, a 的 典型 值 为 0.5。 
HHE- MURR AREE x, A FANE, 


1. 对 国定 的 a EAE 
固定 后 验 分 布 POG- xp 1X, =x TEND ine, inc ge RRA FARR A 


Bowls So [yjloge, + (1 - p Hogil a) + D) San, 
1k :Ed 





= > EKA 一 >, log < expl- &2,) + exp (l -E lg) > 

Cc eat jet 

el 
其 中 ee 

Lj 
Bow) Beebe AE fe) 0, 1A 上 个 独立 最 小 化， 
2. MDE mE | eT ise, | 
MING SAC IE |, ELE 
H, = cl SOL ita pe + Ww Lae, = = T K.) 


其 中 i 


cl 
pam 3, E < expt 一 fs, } + expl {l ~È }z l ~ 


(1-0 301 - expl- Em) 801 - expt] - Si) iw 2) 
+ prexpl— Ew.) a iz + mexpi (1 一 E Jua) 
7 < exp il -E lz) > 

— < expl- &2,) + expl(l -E lz) > 


T _ T, I 
i > Wd, 


nny 
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( BE ) 
Ea ae col} A sigmo] BEI EL 
L 
ere l + epl- +) 
3. E RAIRE, 
ITER AE, AEA, ERUR Aw, ARER 
JR w) 


Aa, 
AP y BSA ea, H 


aRCw) _ EE D P (1 - G JE expt- 二 Dl — © de expl il 一 E jug) 
Aw er f = te, + Dt 一 Ei, ) a ne u +p expt 一 PETE 


其 中 日 Paix. RAYE : 
wy <u, + Aw, 
4. AFi Re AR, 
Foe EWN ER Se a ar URE Ee ee, MAILER ARA A REA, 或 者 让 到 过 拟 合 发 
E., PAE Mae Ay eae ee ete A aL, 





11.13 确定 性 退火 


现在 进入 本 章 最 后 一 个 论题 ， 确 定性 退火 。 在 11.5 节 我 们 讨论 模拟 退火 ， 这 个 随机 松 
弛 技巧 提供 解决 韭 凸 优化 问题 的 一 -个 强 有 力 方 法 。 但 是 必须 倍 细 选择 退火 进度 表 。 特 别 地 ， 
只 有 当 退 火 温 典 的 下 降 率 不 比 对 数 更 快 时 ， 全 局 最 小 才能 得 到 保证 。 这 种 要 求 使 得 在 许多 应 
用 中 用 模拟 退火 变 得 不 现实 。 模 拟 退 灭 的 运行 是 在 能 量 此 面 (地 形 ) 上 进行 随机 移动 。 相 反 ， 
在 确定 性 刘 火 时 ,随机 性 以 某 种 形式 结合 到 能 量 或 代价 肾 数 里 ， 因 此 在 一 系列 下 降温 度 情况 
下 进行 确定 性 最 优化 {Rose et al., 1990; Rose, 1998); 不 要 抱 确定 性 退火 和 和 平均 场 退 火 ( 这 个 术 
滞 常用 来 表示 确定 性 Boltzmann HOM. 

直面 我 们 在 无 监督 学 习 任务 即 聚 类 半 : 的 背景 下 ， 氢 述 多 定性 退火 的 思想 。 


通过 确定 性 退火 聚 类 


聚 类 定 叉 为 对 一 给 定数 据点 集 剖 分 成 子 集 ， 使 得 每 个 子 集 尽 可 能 是 相似 的 。 聚 类 荐 典型 
的 非 是 优化 问题 ， 因 为 实际 上 用 于 聚 类 的 畸变 函数 都 是 输入 数据 的 非 凸 盟 数 。 间 时 枉 变 函数 
关于 输 人 的 曲线 充满 局 部 最 小 ， 这 使 得 求全 局 最 小 变 得 更 为 困难 。 

在 Rose(1991,1998) 中 通过 前 分 的 随机 化 或 等 价 的 编码 规则 的 随机 化 ， 对 聚 类 描绘 一 个 
概率 框架 。 这 里 利用 的 主要 原则 就 是 每 个 数据 点 以 概率 归 为 一 特定 聚 类 ( 子 集 }。 具 体 地 ， 令 
随机 向量 XERA AME, 邻 随 机 向 量 阅 表示 从 感 兴趣 的 码 本 的 最 优 重 槐 {给 出} 向量。 
这 两 个 向 量 的 单独 实现 分 别 记 为 x Aly. | 586 | 

对 聚 类 我 们 需要 一 个 畸变 度量 ， 由 da, yp ÆR. BE dx 7 满足 两 个 希望 的 人 性质 ， 
(日 对 任何 交 它 昨 了 的 凸 国 数 ，(2) 当 变 元 有 限时 ， 它 是 有 限 的 。 例 如 ，Euclid 平方 畸变 度量 

d(x,y) = x-yl’ (11.91) 
a PGS BE. SRL RES AS EE 
D = > >S P(x = X,Y = y)d(x,y¥} = > P(X = X) — >) P(Y = Y| X = x)d(x,y) 


| (11.92) 
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Ee P(X=x, Y-y)E X= Al Y= y 联合 事件 的 概率 。 在 式 (11. 名 ) 的 第 三 个 等 式 ， 我 们 利 
FURR THB ae 
P(X = %,¥ = y) = PCY = yi X = x)P(X = x) (11.93) 
条 件 概率 POY =yIX=ES) 指 联想 概率 ， 即 ， 公 宁 咯 昌 y RRS x RE. 
传统 上 通过 对 聚 类 模型 的 自 贞 参数 ， 即 草 建 向 量 y 和 联想 概率 PCY =ylX=x), Bee 
HRE D. DOA RA eee “Te” ie, ee x 被 归 入 最 这 的 码 同 量 yo 
另 一 方面 ， 在 位 定 性 退火 中 ， 忧 化 问题 被 改变 成 寻找 服从 特定 随机 水 平 概率 分 布 ， 使 得 它 最 
小 化 期 望 畸变 。 作 为 随 习 水 平 的 一 个 主 鉴 度量 ， 我 们 使 用 Shannon 44, ELACA 10.47) 


H(X,Y) =- >) S) P(X = x,¥ = y)logP(X = x,¥ = y) (11.94) 
期 望 畸变 的 约束 优化 可 以 表示 成 Lagrange ae 
F=D-TH (11.95) 


的 最 小 化 ， 其 中 了 为 Lagane FEF. MAOL RATHER BN 
*。 对 大 的 了 值 , W 五 被 最 大 化 。 
*。 对 小 的 了 值 ， 期 望 畸变 D 被 最 小 化 ， 导 丛 硬 ( 非 随 机 ) 千 类 解 : 
。 对 中 间 的 了 值 ， 严 的 最 小 值 提 供 在 炉 所 增加 和 期 望 畸 释 瑟 减少 之 间 的 折 中 : 
最 为 重要 的 ， 比 较 式 (11.11) 利 式 (11.95)， 我 们 可 以 确认 表 11-4 oT A Ae RE ET 
题 和 统计 力学 之 间 的 对 应 ,， 根 据 这 种 类 比 ， 我 们 今后 称 了 为 温度 。 
表 11-4 约束 票 类 和 统计 物理 学 之 间 的 对 应 


24 oe RE HAE 统计 物理 学 
Lagrange 函数 F ARE F o aa 
MURE D 平均 能 量 < E> 
Shannon a H i a 
Lagrange Æ f° T 温度 了 
Ay E--JE Tø Lagrange AA FP, RTE SKA AXA RA Sea 
(10.245) ): 


H(X, Y) = H(X) + H(Y | X) 
其 中 CX) 4. HODATE RE XE SY AA. ARE ACK 
phyA. A, RIITAA Lagrange AA F PSR CX). MSE EE 
H(Y |X) =- >) P(X =x) DO PCY =y 1X = xilogP(Y = yl X= x) (11.96) 
这 样 突出 联想 概率 PCY = yIX— x) 的 作用 。 因 此 ， 考 虚 到 约束 聚 类 优化 问题 和 统计 物理 学 之 
间 的 对 应 以 及 11.2 节 描 述 的 最 小 白 由 能 量 原 理 ， 我 们 发 现 关 于 联想 概率 的 Lagrange I F 
的 最 小 化 导 和 化 Gibbs 分 布 


PTY =y|X =x) = Hesp - 攻守 了 (11.97) 
其 中 Z, AST HSA] ea ap ee, ELA 
2, = Lee - ay!) (11.98) 


“TBE TELAH, RARO RRS Ble SR. RRS Se 
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AST, TAIRA EERE REAA RE RO RE Re, ER 
te, “Si TATE, KER REET 8 AROG Al, “RR, op Re a” 
的 ， 每 个 输入 样本 以 概 兴 1] op 2G eo) bt A PR Lagrange PAR F 的 最 小 二， 我 们 将 
式 (11.97) 的 Gibbs 分 布 代 和 人 式 (11.%) 利 式 (11.96)， 然 后 将 结果 表达 此 用 到 此 (11.95) 的 

Lagrange FET FEAF: AIFA TAARN SA eJ A 11.22) 
F° = mn F=- f > P(X = XjlozZ, (11.99) 


Pi =ylX=x! 
OTE FT HSR BAAS ey Bey, E Lagrange AR, RIE FP 关于 的 梯度 为 零 。 因此， 
得 到 条 件 


DRY yd (HY) = 0 WhAycS (11,100) 


FLAG By RUER G. HRUD SRA POX = x) 规整 化 ， 可 以 重新 定义 这 
RR MEARE A 


y UP = yIX= x) Fd(xy) = 0 A y cS (11.101) 


上 其 中 联想 概率 PCY = y|X =x) H3R(11.97) A Gibbs 分 布 定 放 。 在 式 f1l1.101) 中 仅 为 了 完整 性 
包括 比例 因子 A, RE N 为 可 用 样本 的 数目 。 

我 们 现在 可 以 描述 谷类 的 确定 性 退火 算法 (Rose,1998)。 基 本 上 上 上， 算法 由 以 下 两 步 组 成 . 
开始 在 温度 了 为 很 丙 值 时 对 码 向 量 最 小 化 Lagrange PAA " ， 然 后 在 降低 温度 了 的 间 寺 跟踪 
最 小 作 。 换 句 话 说， 确定 性 退火 运行 时 具有 特定 的 退火 进度 表 ， 温 度 依 次 降低 。 对 温度 了 
WA, ATTRA AE ARG ， 

lL Aes, HARATA SMe eS dx, 了 的 式 (11.97) 的 Gibbs 分 布 计算 联想 概率 。 

2. 固定 联想 ， 使 用 式 (11.101) 对 鸽 向 量 y 最 优化 畸变 度 员 d (xy)。 

ATRA ARTEX "单调 不 升 ， 因 此 能 保证 收 伐 到 一 个 最 小 点 。 当 温度 了 很 高 时 ， 
Lagrange OF FB SGA. MAER MA a eet dix, WINER t, OF Ze y he 
Po TARR A A] AOR WG FERID. MEERE, PRR | Op Be 
“HE” R IS RE o 

HRE TRKE RER, gial RIRE, Eh ARREA, A 
St Ah BEE fe E RE 8 ee EOS jhi Rose et al. , 1990; Rose, 1991}. BPRS AFL PR 
因而 而 有 有 意义， 

。 它 提供 控制 聚 类 檬 型 大 小 的 一 个 有 用 上 具 ， 

* 正如 通 弟 的 物理 退火 一 样 ， 相 变 是 确定 性 退火 的 关键 点 ， 此 处 需要 小 心 进行 退火 ， 

。 关 健 点 是 可 计算 的 ， 因 而 提供 用 于 在 岗 个 相 这 之 加 如 速 工 法 的 信息 - 

。 最 优 模 型 大 小 可 以 确认 ， 通 过 大 分 一 个 确认 讨 程 检验 在 不 同 相位 得 到 的 一 系列 解 ， 

jx He fe FE Fe a Be A A EI BES BO) A T RE o 

111.4 A 11-10 和 图 11-11 举例 说 明 随 温度 TT 下 降 或 温度 倒数 B=1iT REJI, E 
性 上 进 火 在 不 同 相 位 时 千 类 解 的 演化 ， 产 生 这 些 图 所 使 用 的 数据 集 和 由 6 个 Gauss oP AP ES hi 
上 成， 它们 的 中 心 履 以 处 标识、 计算 所 得 桔 类 的 中 心 部 以 6 标识 。 由 于 罕 类 解 在 非 零 温 谎 不 是 
“人 硬 " 分 类 的 ， 这 个 随机 划分 在 图 中 由 属于 该 聚 类 的 等 慨 举 一 一 如 概率 为 173 PER TRS 
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590! 图 11-10 不 同 相位 的 聚 类 ， 夯 线 是 等 概率 围 线 ,在 外 中 p -= 12， 其 余 情 帝 下 p = 1/3 
ajl 个 聚 类 {B=0) b)2 个 素 类 (B=0.0049) 

o)3 TRÆR 20.0056) d)4 个 际 类 { R = 0.0100) 

e)5 TEXIA =0.0156} 6 TRÆ B= 0.0347} 

pg}19 个 聚 类 ( B = 0.0605) 
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TERT DF GRE POD A  E AT iG AE IE 


ip a RA ARR IS 1-10) RIA. ERR, ERR 
聚 类 (图 11-10b), Raad RIE AA ECIAZ OTRANM ARE. MPR RABAR 
时 ， 下 一 个 相 变 导致 “爆炸 ”。 图 11-11 EAA, BAT eh He ee ae 
ERRI, CARER MMH, ARRA A. 在 这 个 图 中 ， 平 均 嘛 变 ( 相 对 它 的 最 小 值 
规整 化 ) 是 对 温度 了 的 倒数 即 召 (相对 于 它 的 最 小 值 规整 化 )? 画 出 的 。 两 个 坐标 轴 邵 是 以 它们 


Log{<D>/<D>min) 


相关 的 对 数 形 式 标 出 的 。 


Lozg[B/Bminl| 


图 11-11 Â Gaus 分 布 样本 的 相位 图 。 对 每 个 相位 显示 有 效 谷类 的 数目 


和 EM 算法 的 类 比 


为 了 说 明确 定性 退火 算法 的 另 一 个 重要 方面 ， 鼻 设 我 们 将 联想 概率 PCV =y X-I) FR 
一 个 二 值 随机 变量 V, WEI, Be 定义 为 
V, = p a re seis 
MAMAE, FATA SEER ARE ARCS 了 ER ee a iT 
的 期 望 最 大 (EM 算法 的 一 种 形式 。 特 别 在 第 一 步 中 计算 联想 概率 ， 我 们 有 与 它 等 价 的 求 期 
望 步 又。 在 第 二 步 最 小 化 Lagrange PAR 上 ， 我 们 有 与 它 等 价 的 最 大 化 步 又。 
但 在 作 这 种 类 比 时 ,注意 确定 性 退火 比 最 大 似 然 估计 是 更 一 般 的 。 我 们 这 样 说 ， 是 因为 
与 最 大 似 然 估计 不 一 样 ， 确 定性 退火 不 对 数据 的 固有 概率 分 布 作 任 何 候 定 。 事 实 上 ， 联 想 概 


率 是 由 最 小 化 Lagmage 函数 导出 的 。 
11.14 ”小结 和 人 讨论 

在 这 一 童 中 我 们 讨论 利用 植 根 于 统计 力学 的 思想 作为 优化 硫 术 表示 和 学 习 机 器 的 数 尝 基 
础 。 这 里 考虑 的 学 习 机 器 可 分 类 如 下 : 
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s 随机 机 器 ， 例 如 Boltzmann fl, sigmoid 信和 度 网 络 和 Helmholtz #1. 

> 确定 性 机 村 ， 币 用 平均 场 通 近 从 Boltrmann 机 和 sigmcid AR RAT He 

Boltzmann #1 (62 73 Bet gee AT J AL AAAS BBE A, ELA Gibbs 分 布 的 
Berea, MA mH — ER AR RFE : 

。 通过 训练 ， 神 经 元 所 显示 的 概率 分 布 和 环境 相 匹 配 。 

”网络 提供 一 种 扒 ] 的 方法 ， 可 用 于 搜索 、 表 示 和 学 习 的 基本 问题 (Hinton, 1989), 

© 如 采 退 火 进 讨 表 在 学 习 过 程 中 是 够 慢 ， 则 网 络 保证 找到 状态 能 量 曲 而 的 全 局 最 小 值 

{Geman and Geman, 1984}. 

AIBA RABU SE AEA. (de, BO REÁ) Boltzmann 机 学 习 过 程 
可 以 进行 加 速 ， 对 这 些 Boltzmann 机 我 们 无 需 进 行 采 样 算法 或 者 应 用 平均 场 逼近 。 特 别 地 ， 
WMR Boltzmann 机 隐藏 神经 元 是 链 状 或 树 状 以 及 它们 的 硝 合 对 ， 学 习 可 在 多 项 式 时 间 完 
之 所 以 能 取得 这 样 的 结果 ， 是 因为 应 用 了 统计 力学 中 熟知 的 “抽取 ”算法 ， 它 是 一 个 简单 而 精 
致 的 这 程 ， 非 常 像 求解 电阻 电感 电容 (RLC} 电 路 一 样 ， 从 图 中 递归 地 删除 连接 种 节点 (Saul 
and Jordan, 1995 ,1996 ) ， 

sigmoid 依 度 了 网络 给 出 Boltzmann 机 的 一 个 重要 改进 ， 它 消除 学 习 过 程 中 的 负 岗 (自由 运 
行 ) 也 段 。 这 是 由 于 它们 不 用 Boltamann 机 中 邓 称 连接 而 三 用 有 向 无 圈 连 接 。 也 就 中 说 
Bolizmann 机 是 一 种 具有 上 反馈 的 递归 网 络 ， 而 sigmoid 信 度 网 络 是 无 反馈 的 多 层 铺 构 ， 正 如 名 
TAR RR ANE, sigmoid 信和 度 网 络 和 由 Pead(1988) 首 先 提 出 的 经 典 的 信和 度 网 络 非常 接近 ， 因 而 
将 神经 网 络 的 研究 和 概率 推理 模型 及 图 形 模 型 联系 起 来 {Jordan,1998; Jordan et al. , 1998), 

Helmholtz 机 又 污 它 们 不 同 。 它 的 发 展 受 到 视 党 是 网 彤 让 反 (【Hom,， 1997; Hinton & 
Ghahramani ,1997) 的 思想 的 皇 过。 特别 在 反 回 运行 中 它 使 用 一 个 随机 的 产生 模型 把 一 个 场景 
的 抽象 表示 转化 为 一 个 深度 图 像 。 场 景 的 抽象 表示 ( 即 网 络 自己 关于 世界 的 视觉 知识 ) 是 由 平 
前 向 运行 的 随 袖 识别 模型 学 习 的 。 通 过 识别 模型 和 产生 模型 的 巧 录 外 合 ( 即 前 向 / 皮 向 投影 )， 
Helmholtz 机 起 到 上 自 昌 督 机 的 必用， 因而 不 需要 教师 。 

接着 讨论 确定 性 机 器 ， 确 定性 Boltzmann 机 是 由 Boltzmann 机 导出 的 ， 它 用 两 个 随机 变量 
汐 值 的 乘积 替代 两 个 随机 变量 乘积 的 均值 ， 这 旦 平均 场 逼 近 的 朴素 形式 -这样 做 使 得 确定 性 
Boltzmann 机 比 标 谁 的 随机 Bolizmann 机 快 许 多 。 遗 憾 的 是 在 实际 应 用 中 严格 限制 在 仅 售 一 个 
隐藏 层 的 情况 ,在 Kappen and Rodriguez(1998) 中 ， 讨 论 到 存 对 Boltzmann HLF Ae AY He 
论 时 ， 使 用 线性 响应 定理 计算 相关 和 性。 这 个 定 香 的 本 质 在 于 应 用 其 线 插 响应 的 允 近 替代 式 
(12.53)89 Boltzmann 学 习 规 则 中 町 制 和 和 目 由 运行 时 的 相关 性 。 根 据 Kappen and Rodriguez 
(1998) 的 讨论 ， 新 的 学 习 过 程 可 应 用 于 含有 或 没有 隐 财 神经 元 的 网 络 。 

sigmoid 在 度 网 络 的 箭 定 性 形式 的 导出 是 应 用 平均 场 理 论 的 另 一 个 形式 ， 应 用 Jensen 不 等 
忒 寻 出 刘 数 似 然 图 数 的 一 个 严格 和 下界。 进一步 ， 以 一 种 原则 化 的 方式 利用 易 处 理 的 子 结构 优 
氮 ， 理 论 上 使 得 区 类 昼 经 网 络 成 为 依 度 网 络 之 外 的 细 一 种 重要 网 络 类 型 。 

在 本 音 我 们 还 讨论 两 个 优化 技术 : 模 氢 退火 和 确定 性 退火 ,模拟 退火 的 突出 点 在 于 在 能 
BR Cott BALE, MR AGERE RIESE, MES AASB PEL 
Ao FAR, METER ACRE SESL HERR A BUR th Pa, MPS RRR EIT, RSPEI, 
在 每 个 依次 的 温度 对 目标 函数 进行 确定 性 的 优化 。 但 是 ， 注 意 借 拟 退 火 保 证 到 达 全 局 极 小 ， 
而 确定 性 退火 还 没有 找到 这 种 保证 。 
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本 草 中 我 们 虽然 强调 应 用 优化 技术 和 随机 机 器 解决 无 监督 学 习 任 务 ， BUR RE n kA 
应 用 于 监督 学 导 尾 务 。 


注释 和 参考 文献 


在 11.3 PRR BATS RAA EH J. Willard Gibbst 1902) 在 《统计 力学 的 基本 原理 3 第 
一 部 分 33 页 上 创造 的 新 省 词 ， 他 写 到 
“所 表示 的 分 布 eae 





Woe 
= exp| H | 

看 来 代表 了 最 简单 可 以 想象 的 情况 ， 因 为 当 系 统 包 括 分 离 能 量 的 部 分 时 ， 它 的 分 布 和 
分 离 部 分 的 相位 的 分 布 律 相同 ， 其 中 HA TAER, B 玉 为 正 。 分 布 的 这 个 性 质 极 
大 地 简化 了 讨论 ， 是 和 热力 学 极端 重要 关系 的 基础 。 当 一 个 整体 系统 在 相位 以 刚才 描 
述 的 方式 分 布 ， 即 当 概 率 ( 了 了) 指标 是 能 量 (e}) 的 线性 函数 ， 我 们 将 说 整体 是 商 型 分 布 
的 ， 称 能 量 的 除数 H 为 分 布 的 模 。 
在 物理 文献 中 , 式 (11.3) 通 常 称 为 典型 分 布 (Reif，1965) 或 Gibbs 分 布 (Landau and 
Ligchiiz,1980)。 在 神经 网 络 文献 中 称 为 Gibbs 分 布 、Boltanann 分 布 和 Bolizmann-Gibbs 分 
布 。 
引入 温度 和 模拟 退火 到 组 合 优化 问题 的 想法 是 由 Kirkpatrick, Gelatt and Vacchi( 1983) = 
人 和 Cermy(1985) 独 六 提出 的 。 
在 物理 环境 中 ， 退 火 是 自然 界 的 一 个 精细 的 过 程 。 Kirkpatrick 等 在 1983 的 文章 中 讨论 
“RA 一 个 固体 的 概念 ， 这 涉及 升 高 温度 到 一 个 最 天 值 使 得 固体 的 所 有 粒子 处 于 液态 
时 能 使 随机 地 运动 。 接 着 降低 遂 度 ， 使 得 所 有 粒子 调整 到 具有 低能 基态 的 相应 格 点 。 
如 采 冷 却 杰 快 ， 也 就 是 说 ， 在 每 一 温度 ， 国 体 没 有 足够 时 间 达 到 热平衡 ， 这 样 得 到 的 
唱 体 会 有 许多 缺 陶 ， 或 物质 将 形成 无 晶体 序 的 玻璃 体 并 且 仅 为 局 部 最 优 结构 的 亚 稳 态 。 
“ 炊 化 "这 个 概念 对 于 思考 玻璃 体 可 能 是 正确 的 方法 ， 或 许 对 考虑 组 合 优化 问题 的 计算 
也 有 帮助 。 但 是 当 讨 论 许多 其 他 应 用 领域 时 会 失误 (Beckerman,1997]。 例 如 ， 在 图 像 处 
理 中 ， 如 乐 我 们 升 高 温度 使 得 所 有 狩 子 能 够 随机 地 调整 自己 的 位 置 ， 就 会 亚 失 图 
像 一 一 变 成 均匀 上 其 度 。 在 相应 的 治 金 学 意 多 上 ， 当 退火 铁 或 网 时 ， 我 们 必须 保证 退火 
mS RTA; 否则 将 会 毁坏 样本 。 

有 并 个 控制 治 金 姑 火 重要 的 参数 ， 

。 退火 温度 ， 指 示人 金属 或 合金 加 热 到 什么 温度 。 

‘ 退火 时 间 ， 指 定 保持 提高 温度 后 的 时 间 长 度 。 

。 EKER, JRE FRE. 
在 描述 退火 进度 表 的 小 节 中 可 以 发 现 , 这 些 参 数 在 模拟 退火 里 能 找到 和 它们 相对 应 的 
部 分 。 
Langevin 方 得 (具有 时 变温 度 ) 提 供 了 另 一 个 由 Grenander(1983) 提 出 的 全 局 最 优化 算法 的 
基础 ， 随 后 由 Gidas (1985) 进 行 了 分 析 。Langevin 方程 是 随机 微分 方程 ， 描 述 为 (Reif， 
1965) 





dole) 


EP ~~ ¥yo(t) + T(r) 
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HP u(t ARLAPTERL PEA m 的 粒子 的 速度 ，Y WR, GTER RAE m 
MIA, (OO EAR oH. Langevin 方程 是 捕 述 非 平衡 热 动 力学 的 第 一 个 
数学 方程 。 

Xi ERREA EPIR KER R, SA PI Aarts and Korst(1989， pp.60 — 75) All van 
Laarhoven and Aarts{ 1988, pp.62 — 71). 

Gibbs HEE StH YY BB BRA Metropolis 算法 的 “ 热 治 " 形 式 。 自 从 在 Geman and Geman 
(1984) 及 Gelfand and Smith( 1990) 的 文献 中 正式 出 现 以 后 ， 它 帘 广 泛 应 用 于 玫 像 处 理 、 
神经 网 络 和 统计 学 。 后 一 篇 文章 还 讨论 抽样 (或 Monte Carlo) 的 其 他 方法 ， 这 些 方 法 基 
于 对 边缘 概率 估计 的 数值 计算 。Hastings(1970) 给 出 了 Metropolis 算法 的 推广 ， 而 Gibbs 
抽样 仅 是 它 的 特例 ， 担 到 了 它 在 解决 统计 中 数值 问题 的 潜在 应 用 ， 

Boltzmann 栅 的 可 多 神经 元 可 以 锌 分 成 输入 和 输出 神经 元 。 在 第 二 种 结构 中 Boltzmann 机 
是 在 教师 监督 下 进行 联想 ,输入 神经 元 从 环境 接受 信息 而 输出 神经 元 报告 计算 结果 锻 
最 终 用 户 。 

式 (11.39) 的 表达 式 适 合 于 Boltzmann 机 的 “ 开 和 “ 关 ” 状 态 分 别 用 + 1 A - 1 AR, AB 
机 益 利 用 1 和 0 分 别 表示 “ 开 " 和 " 关 " 状 态 ， 我 们 有 


E(x) = 一 NS DARI 


EE, XR Kullback - Leibler 散 度 用 作 Boltzmann 机 的 性 能 指标 (Ackley et al., 
1985; Hinton and Sejnowski,1986)。 这 个 标准 提供 环境 和 物理 内 部 模型 之 间 的 差异 的 度 
B, EXA 


Dal = 5 pi log{ 2+) 
其 中 pe ARERR Hl EY AY LS ERAS o 的 概率 ，p。 为 网 络 自由 运行 时 可 见 神 经 
元 在 状态 a 的 概率 。 网 络 突 触 权 值 被 调整 ， 使 已 || 。 达 到 最 小 ; 参看 习题 11.10。 


当 应 用 于 训练 集 时 ， 最 小 化 Kullback - Leibler 散 度 原则 和 最 大 似 然 原则 基本 上 等 价 。 为 
了 看 清 这 个 等 价 性 ， 我 们 注意 两 个 分 布 了 和 g 的 Kullback - Leibler 之 间 散 度 由 

Dy, =- Hf) - > flog( g) 
ani SORA f UAE, Ae eg 的 一 个 优化 模型 ， 第 一 项 是 常数 ， 第 二 项 则 
是 项 的 对 数 似 然 范 数 。 因 此 最 小 化 Kullback - Leibler 散 度 是 和 最 天 亿 然 等 价 的 。 
信和 虚 网 络 最 初 是 为 了 表示 专家 系统 中 的 概率 知识 而 引入 的 。 在 文献 中 它们 也 指 Bayes 
网 络 。 
Helmholtz 机 属于 以 前 向 投影 和 反 向 投影 为 特征 的 一 类 神经 网 络 。 前 向 投影 的 思想 起 源 
于 Crosshberg(1980) 的 自 迁 应 共 把 理论 研究 ; 地 可 参看 Carpenter and Gmssberg{1987)。 在 
这 个 模型 中 ， 前 问 自 适应 滤波 结合 反 向 模板 匹配 ， 使 得 产生 自 适应 共振 { 妈 放 天 和 延长 
昼 经 活动 )。 与 Grossberg 的 自 适 应 共振 理论 相反 ， 对 于 试图 准确 捕获 输入 数据 的 固有 结 
构 的 产生 模型 ，Helmholtz 机 利用 统计 方法 把 自 监 督学 习作 为 一 种 确定 产生 模型 的 方法 。 
万 一 个 紧密 相关 的 工作 是 Luttrell(1994,1997) 的 工作 。 在 Luttrel(1994) 的 工作 中 ， 提 出 
了 “tr Markov $” (folded Markov chain, FMC}) 的 思想 。 和 特别， 一 个 Markor 链 前 向 转移 之 


ww ai bbt.com PO00ODOO 





HTEO FOG REPLI p E ATA EE 433 
后 ， 紧 接着 利用 同样 的 链 按 反 辣 进 行道 转移 (利用 Bayes EE), TE Lattrell (1997) BY 
论 FMC 和 Helmholtz 机 的 区 系 ， 
号 外 一 些 相 关 二 作 和 包括 诸如 Kawato et al.(1993) 的 工作 ， 寺中 考虑 以 与 Heimholiz 机 相似 
但 没有 慨 率 关系 的 方式 前 向 ( 识 别 ) 模 型 和 反 向 (产生 ) 模 型 ， 以 及 Mumford! 1994) K FE 
射 Grenander 产生 模 才 到 人 脑 和 中 的 提 以 。 
在 Dayan and Hinton(1996) 中 ， 提 友 大 量 不 同 种 类 的 包括 监督 方法 的 Helmholtz 机 。 

C11) 确定 性 退火 已 成 功 应 用 到 许多 学 习 尾 务 : 

。 向 量 量 化 (Rose et al. ,1992; Miller and Rose, 1994) 
© 统计 分 类 设计 (Miller et al. , 1996) 
* 利用 混合 专家 的 非 线 性 回归 (Rao et al. .1997a) 
. 隐藏 Markov 模型 的 语音 识别 (Rao et al. ,1997b) 
一 个 隐 Markov 模型 类 似 于 Markov 链 ， 因为 它 有 从 一 个 状态 转移 到 男 一 个 状态 都 古 根据 
概率 的 。 但 它们 有 一 个 重要 区 别 ， 在 Marko 链 中 ， 输 出 符号 的 产生 是 确定 的 。 另 一 方 
面 ， 在 隐 Markov 模型 中 ,输出 符号 是 概率 性 的 ， 这 样 所 有 符号 都 可 能 达到 每 一 状态 。 
因此 对 隐 Markov 模型 的 每 一 状态 ， 我 们 有 所 有 输出 符号 的 概率 分 布 。 隐 Markov 模型 的 
讨论 可 参见 Rabiner(1989)，Rabiner and Juang( 1986) 和 Jefinekf 1997 1) 。 





>Ja 

Markov $$ 7 i Li | | p | i B. | P | o 

步 转移 概率 记 为 p99。 利用 归纳 法 一. 一. ANR O 
[=p | -p | -p l—p 

证 上 有 


py” = Ppp | 
11.2 图 11-12 表示 随机 行走 ee 
过 程 的 状态 转移 图 ， 其 中 转移 概率 fo 





p 大 于 零 。 图 中 所 示 的 无 限 长 po 
Markov 链 是 不 可 约 吗 ?说 明 你 回答 5、 A > 
g 


的 理由 。 7, 


1.3 考虑 图 11-13 所 描绘 J 
Markov 链 ， 它 是 可 约 的 。 找 出 包含 | p E ak. 
在 这 个 状态 转换 网 中 的 各 个 状态 ea 
类 。 aal 

1.4 计算 图 11-14 所 示 的 | 
Markov 链 的 稳定 态 的 概率 。 VS 
REA \ 


11.5 Metropolis 算法 和 Gibbs 
抽样 器 代表 两 类 不 同 的 模拟 大 规 柳 
bl 题 的 技术 。 讨 论 它们 之 间 的 基本 相似 点 和 不 同 点 。 


图 11-13 
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米 解 旅行 丙 问 题 (traveling salesman m kass 
problem, TSP) .. 条 件 如 下 : / | 

© N 个 城市 i o H Sa , 

"” RTIRA d = a 

。 旅行 路 线 为 一 个 闭合 的 路 | | 

径 ， 只 访问 每 个 城市 一 次 Ps 

目标 是 寻找 只 有 最 小 恕 长度 L 1 : “a yp 3 
bate Fr Be Be C BAB Sl Sak TAT TD] i igi a a 
序 )。 在 这 个 习题 中 ， 不 同 的 可 能 版 nn 
行路 线 称 为 构 形 ， 而 需 最 小 化 的 代 | 

( 动 设计 出 一 种 产生 合法 构 形 的 
ENT o (=| | ]-4 

fb) 旅行 路 线 总 长 度 定 立 为 

Lp = 2 deroan 
长 中 P eae — MBP PCN + 1) = P) AI, Ho eR 
F z Dee 

其 中 了 为 控制 参数 。 建 立 用 于 TSP 的 模拟 退火 算法 。 
Boltzmann 机 

11.7 考虑 一 个 在 温度 了 运行 的 随机 二 值 神经 元 j。 它 从 状态 x 翻转 到 状态 - % 的 概率 
为 


1 
Pla; >- 5) = | + expl — AE,/T} 
其 中 AE CARA ASA Re ENE. Boltzmann HLA) EAE BE SOA 


l 
E = 一 > 2 Dir 


其 中 wi 为 从 神经 元 i 到 神经 元 j 的 突 触 权 值 , E wi = 和 ws =0。 

Cl 证明 AE = - 2x, 其 中 o JERIC] 的 诱导 局 部 域 。 

{bh) 因 此 ,证 明神 经 元 j 从 初 态 x = -1 翻转 到 xx = +1 的 概率 为 1] + exp{ -20,/T)}. 

(o) 证 明 当 神经 元 ; 从 初 态 为 +1 可 转 到 状态 - 1 时 (b) 中 的 公式 仍然 正确 。 

11 8 推导 式 (1 .49) 中 对 数 似 然 函数 L(Ww) 关 于 Boltzmann 机 突 触 权 值 wi 的 导数 公式 。 

11.9 Gibbs 分 布 可 以 利用 自 完备 的 数学 方法 推导 出 ， 而 不 依赖 于 统计 物理 的 概念 。 符 
别 屯 ， 一 个 两 步 Markov 链 模型 的 随机 机 器 可 用 来 导出 形成 Boltzmann 机 特殊 性 质 的 假设 
(Mazaika, 1987 ]。 这 一 点 也 不 邻 人 惊奇， 因为 作为 Boltamann 机 运行 的 模拟 退火 本 身上 只 有 
Markov 性 质 {van Laarhoven and Aarts, 1988) 。 

考虑 存 一 个 随机 机 器 中 神经 元 的 状态 转移 模型 由 两 个 随机 过 程 组 成 : 
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© A PRE A AR 

* FP IRE IR eT 

(a) TARAS EMER p WIM AYIR AR, B 

Po = Tidy Af j x 

HE BH Pa = ] - Drg, T 

Ch) (Be ist Z IA 2 FB Pe eT PRRI 

a =e, 
FP HR RE A BR TE eB eS FE, 
q, =~ 1l- 4; 

由 两 个 假设 证 明 DT, Cg, + qn, -Tt = 0, 


(9 假定 天 0， 利 用 问题 (8) 中 的 结果 证 明 9, = ] -ef 
(d) 最 后 ， 进 行 变 量变 换 ，E, = - Tlogn, + T, AP TATAREK. Hiei: 


Gi)x, = Tepl - zi). (ij 7 = Seal - zi) Git) ¢, = (Teer. EN i FAP AE = E.- E, . 


(ea) 你 能 从 这 些 结果 中 得 出 什么 结论 ? 

11.10 在 11.7 PARA FA AID A BCE CA ES R11 53) PSA SE AY Boltzmann 学 习 规 
则 的 准则 。 在 这 个 习题 中 我 们 利用 别 的 准则 重新 考虑 这 个 学 习 规 则 .由 第 10 章 的 讨论 ， 两 
个 概率 p> 和 p] 的 Kullback-Leibler 散 度 定义 为 


= lgl Z 
其 中 对 所 有 可 能 的 状态 a 求 和 。 概 率 p ARREO A RART R ATREA 
a 的 概率 ， 概 率 p, 表示 网 络 在 自由 运行 {( 负 疝 ) 状 态 时 可 见 神 经 元 处 于 状态 a 的 概率 ,利用 
Leje 车 新 推导 Boltzmann 27 -+7 H. 


11.11 考虑 Boltzmann HLASE] AAR A PS I eM PA, aA 
态 分 别 表示 为 a AM yo ARRATIS Bo 这 个 机 器 的 Kullback-Leibler WH E SMA 


Diii = Bp: D) pinlo 2) 


其 中 p 为 输入 神经 元 在 状态 a BAE., py AP eB ARES a St SORA EKA YE 
FAP OB. py A A TAS ER ERS a 时 处 于 热平衡 中 的 输出 神经 匹 状态 为 了 的 条 件 
E. PORTA, MEAR S | pst alleen TE lal (FP a) A A TF 

(9 对 输入 、 隐 茂 和 输出 神经 元 的 Boltzmann 机 导出 公式 D+ || ,- o 

(b) 对 于 这 种 网 络 配置 经 过 重新 解释 相关 性 六 和 pi ， 证 明 调 整 突 触 权 值 w; 的 Boltzmann 
学 习 规则 仍 可 以 梓 表 示 成 和 式 (11.53) 同 样 的 形式 ，。 
sigmoid 情 度 网 络 

11.12 概述 Boltzmann 机 和 sigmoid 信和 度 网 络 之 间 的 相似 性 和 差异 。 

11.13 在 习题 11.92 中 ， 我们 六 明了 Boitzmann 机 可 描述 为 两 步 Markov SW. sigmoid 
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信和 度 网 络 足 否 可 以 描述 为 - -个 Markov 链 模 型 ? 说 明和 你 的 结论 的 埋 由 。 

11.14 & w RJR sigmoid 中 从 神经 元 i 到 神经 元 j 的 突 触 权 值 用 +1 和 -1 分 别 胡 示 
“ 开 ” 和 和“ 关 "状态 。 如 果 sigmoid 信 上 度 网 络 利 用 1 和 0 表示 神经 元 开 状态 和 关 状 态 ， 则 令 w 表 
ARP BY SS A (EL, HERH IEH F ye de w, 可 LAFE AC BM wi: 

ee 对 O < i<j 
W o = Wey + i 2a 

最 后 一 行 指 的 是 神经 儿 j A ae 

11.15 在 sigmoid 信和 度 网 络 中 我 们 确认 概率 P(X, = x, 1K, = x,) 4 Gibbs 分 布 ， 概 率 P(X, 
=x, ) 六 相应 的 剖 分 聘 数 .验证 这 两 个 结论 的 正确 性 
Helmholtz 机 

11.16 Helmholtz 栅 在 识别 模型 利 产生 模 才 中 者 汕 有 反馈 。 如 果 两 个 模型 的 仔 何 一 个 中 
允许 使 用 反馈 ， 则 网 络 的 运行 会 怎样 ? 


确定 性 Boltzmann 机 


11.17 如同 J 题 11.10 中 所 讨论 ，Boltzmann 机 在 概率 空间 作 梯 度 下 降 ( 关 于 权 值 空间 )，。 
确定 性 Boltzmann 机 对 什么 也 数 作 梯 度 下 降 ? 你 可 参考 Hinton(1989) 讨 论 这 个 问题 。 

tli.18 考虑 具有 非 对 称 权 值 w, z= w,; 的 递归 网 络 。 如 果 每 次 权 值 更 新 后 它 的 长 度 向 零 豪 
减 一 个 很 小 的 比例 ， 讨 论 确定 性 Boltzmann 机 学 习 算 法 将 如 何 自 动 使 网 络 成 为 对 称 的 (Tinton， 
1989) . 
确定 性 sigmoid 信和 度 网 络 

LL99 证 有 明 式 (11.77) 在 边 和 右边 表达 成 的 差 等 于 分 布 QOG =x, 1X, =x) M P(X =x | 
X, 二 大) 之 间 的 Kullback-Leibler 散 度 。 

11.20 在 式 (11.89) 中 的 sigmoid 函数 的 变量 定义 确定 性 sigmoid 信和 度 网 络 中 神经 元 j 的 
傍 导 局 部 域 v， 它 和 用 反 向 传播 算法 训练 的 多 层 感 知 器 中 神经 元 相应 的 泛 导 局 部 域 有 什么 其 
异 ? 
确定 性 退火 

11.21 在 1.13 节 中 我 们 利用 伟 息 论 方法 讨论 确定 性 退火 的 思想 。 和 确定 性 退火 的 思想 
也 可 以 基于 第 10 章 讨 论 的 最 大 炉 原 理 用 原理 化 的 方式 产生 。 说 明 第 二 种 方法 的 基本 原理 
(Rose, 1989), 

11.22 《a) 利 用 式 411.97) 和 和 式 (11.98)， 推 导 式 (11.9) 所 给 出 的 Lagrange BARE FB AE 


“ 果 ， 该 结果 是 用 联想 概率 的 Gibbs 分 布 得 到 的 。 


Cb) AARP a) MAR, FMRC ODA FF 关于 码 向 量 y 取 最 小 值 的 条 件 。 
CO 应 用 式 (11.101) 的 最 小 化 条 件 到 式 (11.,91) 的 平方 畸变 度量 ,评论 你 的 结果 。 
11.23 考虑 数据 集 为 混合 Gauss 分 布 ， 在 这 种 情况 下 ,怎样 才能 使 得 利用 确定 性 退火 比 


Lol) 利用 最 大 似 然 估 计 有 优越 性 ? 


11.24 在 本 是 中 我 们 探讨 基于 神经 网 络 的 模型 分 类 中 确定 姓 退 火 的 应 用 (Miller et al., 
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1996)。 输 出 层 的 神经 元 ) 的 输出 记 为 已 (x)， 其 中 x 为 输入 向 量 。 分 类 决策 是 基于 最 大 判别 
Å FE (x)o 
(a) SIE Ben, eS 
FF = D DPE RIK 


{TE / 
其 中 为 市 标号 同 量 的 训练 集 ，x 表示 输入 同 量 ， GAERA SIA, PER ) Ate Alle 
x AHIR BR, AA ESS. FSR 10 SETI ae ARE, Sih PCx ER, AY Gibbs 分 
(h) 令 < 已 > 表示 错 分 类 代价 的 均值 。 写 出 在 联想 概率 PCxCR IN -- A A ez 
束 下 最 小 化 < P, > AY Lagrange PRR 
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第 12 章 神经 动态 规划 


12.1 简介 


在 第 2 章 ， 我 们 认识 学 习 的 两 种 主要 范例 : 有 教师 学 习 和 无 教师 学 习 。 无 教师 学 习 的 范 
例 又 可 以 纽 分 为 月 组 织 (无 监督 ) 学 习 和 增强 式 (reiniorcement) 和 学习， 从 第 4 更 到 第 了 7 章 ， 讨 论 
有 有 教师 学 当 或 监督 学 习 的 不 同形 式 ， 从 第 8 章 到 第 LL 章 讨论 监督 学 导 的 不 阿 形 式 。 在 这 一 
章 里 ， 我 们 讨论 增强 式 学 习 。 

监督 学 习 是 在 “教师 "教导 下 进行 的 “ 认 知 ”学 习 问 题 ， 它 依赖 于 一 组 怡 当 输入 一 输出 样本 
的 可 用 性 ， 这 些 样本 能 够 反映 运行 环境 。 与 此 相反 ， 增 强 式 学 当 是 一 种 “行为 ”学习 问 题 ， 通 
过 学 习 系 统 和 环境 的 交互 作用 完成 任务 ， 尽 管 存储 不 确定 性 ， 但 学 习 系 统 仍然 希望 在 环境 中 
达到 特定 日 慰 (Barto et al. ,1983; Sutton and Barto,1998)。 无 教师 情况 下 进行 的 交互 使 得 增强 式 
学 习 特 别 适 合 代 价 很 高 或 很 难 { 如 果 不 是 不 可 能 ) 找 色 一 组 满意 的 输入 - 输出 样本 的 动态 情 
he 

有 两 种 途径 研究 增强 式 学 避 !- ， 概 述 如 下 : 

1. 传统 方法 。 通 过 惩罚 和 奖励 的 过 程 进 行 学 习 以 期 达到 高 度 款 练 行为 的 目标 。 

2. 现代 方法 。 它 基于 称 为 动态 规划 的 一 种 数学 方法 ， 通 过 考虑 将 来 可 能 的 但 实际 并 来 
经 历 的 阶段 而 决定 一 系列 的 行动 ; 这 里 强调 的 是 规划 (planning)。 

我 们 讨论 的 重点 是 现代 增强 式 学 习 。 

动态 规划 (dynamic programming)* 技术 人 处 理 的 是 这 样 一 种 情况 : 分 阶段 做 决策 ， 在 作 下 
一 个 决策 之 前 在 基 种 程度 上 能 够 预测 每 个 决策 的 结果 。 这 种 情况 的 一 个 关键 方面 是 不 能 扳 立 
地 收 出 决策 。 相 反 ， 现 在 对 低 代 价 的 希望 必须 被 将 来 吝 代 愉 的 失望 所 抵消 ( 即 不 能 仪 追 求 当 
前 的 低 代 价 )。 这 是 - AERA (credit assitment) 问题 ， 因 为 信任 或 责任 必须 赋值 给 一 组 相 
互 作用 的 决策 中 的 每 一 个 决策 。 为 了 最 优 的 规划 ， 需 要 在 眼前 代价 和 将 来 代价 中 取得 有 北 的 
折 中 。 这 种 折 中 确实 被 动态 规划 的 形式 抓 住 。 特 别 ， 动 态 规 划 解 决 一 个 问题 ; 当 可 能 需要 牺 
和 忻 短 期 性 能 的 情况 下 ， 系 统 怎样 学 习 提 滞 长 期 性 能 ? 

遵循 Berisekas and Taitsiklis( 1996) ,我 们 称 增强 式 学 习 的 现代 方法 为 神经 动态 规划 。 这 样 
做 主要 有 两 点 原因 : 

， 动态 规划 提供 它 的 理论 基础 。 

* 神经 网 络 提供 它 的 学 习 能 力 ， 

圩 经 动态 规划 一 个 简洁 明确 的 定义 是 {Bertsekas and Tsitsikiis,1996): 


神经 动 芒 规划 合 一 个 系统 通过 观 肾 自身 的 行为 来 学 会 志 样 做 出 好 的 决策 ， 并 上 且 使 它 能 通 
过 使 用 增强 式 诅 入 机 制 以 政 进 自己 的 行动 。 


在 离线 方式 下 使 用 Monte Carlo 仿真 可 以 得 到 对 行为 的 观察 。 使 用 迭代 的 优化 系统 通过 增 
强 获 得 对 行动 的 提高 。 
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动态 规划 有 两 个 主要 特征 : -HS NARHA RSE, ASN EBA eg 
数 。12.2 节 讨 论 这 两 个 特征 ,， 随 后 在 12.3 节 讨 论 Bellman 最 优 人 性 方程 的 公式 ， 它 在 动态 规划 
中 扮演 很 各 要 的 角色 。 (£12.49 12.50, teams RRB WATE, 
EIDER RAAHEEN. 

É 12.6 7, RABIA i Ae] SR TA Sp BM UE e ARTE 
MO- FORTE, ee Is EA Ae A SE eR, PA ES EE 12.7 
PAM 12.8 Pitie. 12.9 节 提 出 一 个 使 用 Q -学习 的 计算 机 实验 ， 

$ AT 12.10 节 给 出 最 后 的 评价 作为 结束 。 


12.2 Markov 决策 过 程 


PETF I RAR E agn) AA 12-1 的 方式 和 环境 相互 作用 。 系 统 依 照 一 个 有 限 
的 离散 时 间 Markov 决策 过 程 运行 ， 这 个 Markov 决策 过 程 有 以 下 特性 ， 
. 环境 依 概 率 占 据 一 组 有 限 的 离散 状态 而 演化 。 但 He as 
是 注意 状态 并 不 包含 过 去 的 统计 特性 ， 尽 管 过 去 
的 统 讨 特性 对 学 习 系 统 是 有 用 的 。 

* 对 于 每 一 个 环境 状态 ， 学 习 系 统 可 以 采取 一 组 有 
限 的 可 能 行动 。 

" 每 当 学 习 系 统 有 来 取 一 次 行动 ， 就 会 引起 一 定 的 代 
价 图 12-1 学 习 系 统 与 环境 交互 的 框图 

© 观察 状态 、 采 取 行 动 和 引发 代价 都 是 在 离散 的 时 间 里 发 生 的 。 

在 当前 讨论 的 背景 下 , 环境 的 状态 定义 为 学 习 系 统 从 它 和 环境 交工 中 获得 的 过 去 全 部 经 
万 的 如 各， 它 包 含 诸 如 学 习 系 统 预测 环境 未 来 行为 所 必需 的 信息 。 设 表示 在 时 间 步 n 的 状 
态 的 随机 变量 为 六 ， 在 时 间 步 = 的 实际 状态 为 xz) 有 限 个 状态 的 集合 用 光 表 示 。 动 态 规 
划 令 人 惊奇 的 一 个 特点 是 它 的 适用 性 很 少 依赖 状态 的 人 性质。 因此 我 们 可 以 不 对 状态 空间 结构 
作 任 何 假 设 而 进行 。 

例 旭 ， 对 于 状态 i, 一 组 可 采取 的 行动 ( 即 学 习 系 统 作用 于 环境 的 输入 }) 设 为 [= | a, |， 
x BRS RRR a a 的 第 二 个 下 标 仅 仅 说 明 当 环境 在 状态 i 时， 可 以 有 不 站 一 个 
可 能 的 行动 。 例 如 ， 和 采取 行动 a 将 环境 状态 从 i 变 尼 到 i 状态 本 质 上 为 概率 性 的 。 然 而 ， 最 
重 归 的 是 ， 从 状态 i 到 状态 的 转移 概率 完全 依赖 于 当前 状态 i 和 相应 的 行动 a, 。 这 就 是 我 
们 在 第 11 ERIEN] Markov 性 质 。 这 个 性 质 是 很 关键 的 ， 因 为 它 意 昧 着 环境 的 当前 状态 为 
学 习 系 统 提供 必需 的 信息 以 网 定 采 到 什么 行动 。 

用 一 个 随机 变量 A, 表示 学 习 系 统 在 在 时 间 步 n 时 采取 的 行动 。 用 p; (a) 表 示 在 时 间 步 
n 时 由 于 采取 行动 a MEA i 状态 转移 色 /状态 的 转移 概率 ， 其 中 A, =a, H Markov 性 质 我 
们 有 





pila) = PEN = j | X, = E A, = a) (12,1) 
由 概率 论 ， 转 移 概 率 p,( a) 必须 满足 以 下 两 个 条 件 . 
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FO HEALEY did 


os SS ——— 5, 5, - =, —, = td —, —, —, a a A 





pía) z0 QTA i Mj (12.2) 
Š p,a) = 1 MPAA i (12.3) 


对 于 给 定数 目的 状态 和 转移 概率 , 学 习 系统 随时 间 采 取 人 行动 产生 的 环境 状态 序列 形成 一 个 
Markov i. RIES 11 童 讨论 过 Markov 链 。 

当 从 一 个 状态 转移 到 男 一 个 状态 时 , SURE PAH. 因此 在 行动 a 作用 下 产 
千 的 从 状态 i 到 状态 /的 第 = ERR, 学习 系 统 捐 致 的 代价 表示 为 yY'g(i, aa, WEH 
gt*,",')】 Æ- PREM RR, y 是 折扣 因子 {discount factor), O<y<!, A y, WR 
HYJ ASTER BME. 在 极端 情况 ， 当 Y=0 系统 是 短视 
的 ， 它 内 考 虚 它 的 行动 的 当前 结果 。 以 后 将 忽略 这 种 极端 值 ， 也 就 是 限于 讨论 0<Y<1。 当 
YY 接近 1 时， 未 来 的 代价 在 采取 最 优 行动 时 变 得 出 六 重要 ， 

我 们 的 兴趣 在 于 形成 一 种 策略 {poliey)}， 这 时 策略 指 的 是 状态 到 行动 的 映射。 也 就 是 说 ， 
给 出 环境 当前 状态 的 知识 ,一 个 策略 是 学 习 系 统 决 定做 什么 所 使 用 的 一 个 规则 。 策 略 表 示 为 

me | (12.4) 
其 中 p, 指 的 是 在 时 间 步 n=0，] ，2,，…， 状 态 X, = 工 到 行动 4 = o 的 映射 。 这 个 映射 满足 
oi) eC A. HARG 1 Ew 
KEA, 表示 在 状态 i 时 学 习 系 统 能 够 采取 的 行动 集合 。 这 样 的 策略 是 人 允许 的 ， 

策略 可 以 是 不 稳定 的 或 稳定 的 。 不 稳定 的 (nonstationary) 策 略 是 随时 间 变 化 的 ， 止 如 公式 

(12.4) 所 示 。 但 当 策 略 不 随时 间 变 化 时 ， 即 

m= jup] 
怠 说 策略 是 稳定 的 (stationary)。 换 句 话 说， 稳定 的 策略 每 次 冰 到 一 个 特定 的 状态 时 采取 相同 
的 行动 。 对 于 稳定 的 策略 ， 固 有 的 Markov 链 嫩 可 以 是 不 平稳 的 也 可 以 是 平稳 的 。 在 不 平稳 
的 Markov 链 上 也 可 使 用 称 定 的 策略 ， 但 这 是 不 太 明 智 的 。 如 果 使 用 稳定 的 策略 u WARS 
FIJ X, ,2=0,1,2,°° HER- Markov 链 ， 其 转移 概率 为 fp，AfD 表 泵 一 个 行动 。 由 
于 这 个 原因 这 个 过 程 称 为 Markov 决策 过 程 ， 


基本 问题 


动态 规划 问题 分 为 有 限 范 围 和 无 限 范围 两 种 。 有 限 范 围 (finite-horizon) 问 题 中 在 有 限 的 阶 
段 内 对 代 检 时 积 。 无 限 范 围 (infinite-horizon) 问 题 中 在 无 限 的 阶段 内 对 代价 累积 。 无 限 范围 问 
题 为 有 限 充 国 但 数目 非常 大 的 问题 提供 一 个 合理 的 逼近 。 国 为 折扣 保证 对 于 仔 向 策略 所 有 装 
态 的 代价 都 是 有 限 的 ， 这 样 无 限 范围 问题 有 着 特殊 的 应 用 。 

在 无 限 范围 疝 题 中 ， 从 初始 状态 X = i 开始 并 使 用 策略 x = int, AOR eA 


Pi) = E| DFE (X) Xe) Xo = i (12.5) 
ansi 


其 中 期 望 值 是 对 Markov tX, A RE, AA S OORE x 从 状态 i 开始 的 cost-to-go 
AR EKRAR JC), EXA 

J'i) = minJ" (i) (12.6) 
HRR niahi, Brst, p ow, och. RAS FOWE (i)， 并 当下 列 条 件 成 立 
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时 说 u JEREMY : 
Paid) = J Ca) 对 于 有 所有 的 切 始 状态 i (12.7) 

我 们 可 以 对 动态 规划 的 基本 问题 做 如 下 总 结 : 

给 定 描 述 学 习 系 统 和 环境 相互 作用 的 稳定 Markov 决策 过 程 ， 找 到 一 个 稳定 的 策略 = 
Leste tty 使 对 所 有 的 初始 状态 i 有 最 小 的 cosl-to-go HH J (i). 

注音 ， 在 学 习 过 程 中 学 习 系 统 的 行为 可 以 随时 间 改 变 。 人 是 学 习 系 统 寻 找 的 最 优 策 略 是 
FE AY Watkins, 1989). 
12.3 Bellman 最 优 淮 则 


动态 规划 技术 依赖 昌 功 于 Bellman(1957) 的 通称 为 最 优 原 则 (prineiple of optimality) 的 非常 
简单 的 思想 。 这 个 原则 可 简单 陈述 为 (Beliman and Dreyfus, 1962): 

一 个 最 优 策略 有 这 样 的 性 质 ， 无 论 初 始 状 态 和 初始 决策 是 什么 ， 对 于 第 一 个 决策 所 导致 
的 状态 ， 剩 余 决 策 必 须 成 为 最 优 策略 . 

正如 这 里 使 用 的 那样 ， 一 个 " 决 和 全 (decision) 是 机 特定 时 间 的 一 种 控制 选择 ， 一 个 “ 早 
Bie” C policey E FET al] A etl IS 

为 用 数学 公式 表示 最 优 原 则 ， 考 虚 一 ”有 有限 范围 问题 ， 它 的 cost-to-go AE KA 

Jo(Xo) EEDI ALAARE (12.8) 
其 中 天 是 范围 ( 即 阶段 数 上 日 ) ，gr( Xx) 是 最 终 代 价 ， 给 定 Xa HAC2.8) PAAR ER R 
状态 Ay + + X,_ 4K HAY. FETE Fel |B) oko Bee CJ Sa F ( Bertsekas , 199045b); 

Ar ali ,pm ,pr_1| 作 为 基本 有 限 范 围 问题 的 最 优 策略 。 假设 使 用 最 优 策略 x 
a, Beka Y 发 生 的 概 兴 为 正 。 考 虚 当 环境 在 时 刻 n 时 状态 为 革 的 子 问题 ， 假 设 我 
们 希望 最 小 化 对 应 的 cost-to-gn AAt 

J, 4X, ) = E| ge (Xx) 十 3 (12,9) 
其 中 it = l; Ta K- Ia iX BY AR BT R | ae „Hasi > PE | AT -FEME Bs 1 84 

Mat PAT, FET eT Ae a AR ee AR a SE: TR AR ee ea 
ug, | te ORR REA Re, WAHE n 时刻 到 达 状态 ， 通 过 简单 转 搞 到 对 于 子 问 
题 最 优 的 策略 ， 我 们 可 以 减少 cost-to-go PAB JX, ) 

最 优 原则 基于 “分 而 治之 "(divide and conquer) 的 工程 概念 ， 基 本 上 ,一 个 复 灯 的 镍 阶段 
规划 或 控制 问题 的 最 优 策略 ， 可 通过 以 下 处 理 构 造 : 

。 构造 一 个 仪 包含 系统 最 后 一 个 阶段 的 "尾部 子 问 题 ” (tai] subpmbiem) 的 最 优 束 略 。 


* 扩展 最 优生 上 略 至 包含 系统 最 后 两 个 阶段 的 “ 尾 邵 于 问题 ”， 
© 以 这 种 方式 继续 这 种 过 程 ， 直 到 处 理 元 整修 问题 。 


动态 规划 算法 
在 前 面 描述 过 程 的 基础 土 ， 我 们 可 以 提出 动态 规划 算法 ， 它 从 时 期 N -1 到 时 期 0 反 疝 
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No TH ona {po fy » sft] EFR SLUT RU. 对 每 一 个 rt = (}, leg, EP K 一 l, E T = tia 
Patta 令 J, OX) Fas MATE n HARE Y, AHE KOCK -— BEE fa] Bae 
fit; EN 


F(X) = min E |e) + Dee aoe Me) Xe) (12.10) 
ERRK12.9) MERIER. HERA x" = (un ) 和 部 分 展开 式 (12.10) 的 右边 和 ， 我 们 可 


以 与 成 


J,(X,) = min 
( + 


aT 
em 


K-1 
+ Bx Xr) + b> Br Ar (Mi) Xia) 
EF= n+l 


E | x, OX, Hn Xn) Grp, 


ees 


= min E | g (X CA), Ka) 


并 一 
+ min E | gx CX) + S gp X) Xd] | 
"a 上 = nfl 


T 


= min E | g, Xn spa (Xn), Xnet) + Ra Aa)! (12.11) 
tEn- tr, HPA THR21IOWEM, Antl Re, MERITELE n 和 所 有 的 
X, aA 
Jaa Xna) = Jaa Aa? (12.12) | 608 | 
那么 式 (12.11)? 可 写成 
J, (Xa) = min Eg Xp s pa (Xa) s Xa) + Fra Xa] (12.13) 
如 果 去 (12.12) 对 所 有 X,, ear, 那么 下 式 对 所 有 KV, 也 显然 成 六 ， 
J R= FOX) 
因此 ， 可 从 (12.13) 导 出 
J,(X,) = min Æ AA wt CX ed lS dl ha] 
我 们 加 以 正式 陈述 动态 规划 算法 如 下 (Bertsekas,1995b): 
对 每 一 个 初始 状态 襄 ， 基 本 有 限 范 围 问题 的 最 优 上 代价 J XOF T AX). 其 中 
hat J, 从 下 面 算 法 的 最 后 一 步 得 到 : 
J,(X,) = min Æ Ltn Xn ttn Xn) Mae) + Joa (Xa) (12.14) 
按时 间 反 癌 运 行 ， 且 
Jel Xr) = grl XE) 
ASP, Bul 人 恒 得 式 (12.14) 的 右边 对 于 性 意 a FX, AR, AA RB n = as py ye, 
ue ERA o 


Bellman 最 优 性 方程 
以 其 基本 形式 ， 动 态 规 划算 法 处 理 有 限 范围 问题 。 我 们 感 兴趣 的 是 推广 这 个 算法 的 用 
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i, MARERE RU m= Tp,p,p,…! 情 沉 下 ， 式 (2.5) 的 cost-to-go RA PTEE BAR yo El 
HHA CA T aA, ETT Se 

Fee MTS |, EIS E iTA AZ 

© MER 2 OX, uO X AX QP: 


Ea (CE, pO, Xna) = We X, OX), Xai) (12.15} 
现在 可 以 重新 定义 动态 规划 算法 如 下 (参看 习题 12.4): 
了 = min El g(Xospl Xo), Xi) + YJ (CX, )| (12.16) 


它 从 初始 条 件 
íX) = 0 对 所 有 X 


开始 状态 ,是 初 她 状态 ， 是 策略 上 的 行动 导致 的 新 状态 ，Y 是 折扣 因子 。 
令 六 (站 表示 对 初始 状态 X = i 的 最 优 无 限 范围 的 代价 。 我 们 可 以 把 J* CE A 
K 队 段 最 优 代价 JS DOH KATEA AKHIR; BD 
J G) = mJ) OTA i (12.17) 
这 个 关系 联系 着 有 限 范 围 和 无 限 范围 之 间 的 折扣 问题 。 在 式 (12.16) 中 ,， Snels K, X,= 
i， 并 应 用 式 (12.17)， 我 们 得 到 
I’ (i) = minEl g(i, uli), X) + YJ’ CX, 3] (12.18) 
为 了 计算 最 优 无 限 范围 代价 J (让 的 值 ， 按 下 面 两 个 阶段 进行 处 理 ; 
1. 计算 代价 glip, AOW X 的 期 望 值 ， 


Elg ali) X] = D pliu) j) (12.19) 
其 中 NN 是 环境 状态 的 数目 ，p; 是 初始 状态 = i 到 新 状态 了 = i 的 转移 概率 。 式 (12.19) 定 
义 的 量 是 在 状态 =i 使 用 策略 建议 的 行动 引起 的 立即 期 望 代 价 。 利 用 c(i ,w(ti)) 表 示 这 
个 代价 ， 可 以 写 为 
elispli)) = Dy plie), j) (12.20) 
2. EJ (OR X, Ra. REHE., WRAPS RAPER OY, 的 
代价 J (X), RNC REAA HS Markov HMB J (X BAP 


ELI (XY = Dias O) (12.21) 
这 样 ， 将 式 (12.19) 至 (12.21) 代 入 式 (12.16)， 我 们 得 到 期 望 的 结果 
Fi) = mine) +¥ Maw GD) i= (12.22) 


A (12.22) PU fit Bellman 最 优 性 方程 。 它 不 应 该 被 看 作 算 法 。 相 反 ， 它 表示 N PHA, 4 
个 方程 对 应 一 个 状态 。 这 个 方程 组 的 解 定义 环境 六 个 状态 的 最 优 cost-to-go A 

有 两 种 计算 最 优 策 略 基 本 方法 。 它 们 称 为 策略 选 代 和 值 迭 代 。 这 两 种 方法 分 别 在 12.4 
节 和 12.5 节 讨 论 。 
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12.4 HRA 


ARF ate RAB, Hosté Watkins( 1989}) 提 出 的 0 -因子 的 概念 。 考 虑 一 
个 现 有 的 策略 n， 它 的 所 有 状态 i HJ coop BR (站 为 已 知 。 对 每 一 -个 状态 CHAT eo 
A acd, Q- AFEA EEA ETRE e 的 所 有 后 继 状 态 的 折扣 代价 之 和 ， 表 
mA 
Oise) = efira) + Y X p,a) G) (12.23) 
其 中 行动 a = TESE 注意 Q- AF O'Ci,a) LE cost-togo BEA 六 (让 包含 的 信息 颗 多 。 俩 如 ， 


行动 可 以 内 依靠 0 - 因子 来 排序 ， 而 依靠 cost-to-go 函数 排序 时 还 需 状 态 转移 概 兴 和 代价 的 知 






状态 -行动 对 (i，a} 组 成 其 状态 的 新 系统 , 如 (i EM 
图 12-2 所 描绘 ， 我们 可 以 深入 了 解 Q - 因子 的 | Į 
含义 。 有 两 种 可 能 发 生 的 不 同 概率 ; | 
。 系统 在 状态 (i,a)， 在 这 种 状况 下 ， 不 aa 
采取 行动 。 以 概率 p, fa) 自动 转变 为 状 Nd 
As fs 同时 招致 代价 gti,a,7)。 图 12-2 ”两 个 可 能 的 转移 ， 从 状态 (i,a) 到 
© 系统 在 状态 i， 在 这 种 状况 下 ， 采 取 行 动 WE j 的 转移 为 概率 性 的 ,但 从 状态 i 到 状 
aC 后。 下 一 个 戎 定性 状态 是 (ie)。 25 (i, a) RS AE TER 


我 们 说 策略 u UT cost-to-go 函数 (让 是 贪心 的 ， 如 果 对 所 有 的 状态 ，pt AA PR 
件 的 行动 : 
Oi Hi) = min Oti, ea) 对 所 有 i (12.24) 
对 式 {12.24) 的 下 列 两 点 观察 得 注意 : 
。 可 能 有 多 于 一 个 行动 最 小 化 某 一 状态 的 Q 一 因子 集合 ， 在 这 种 情况 下 ， 对 于 有 关 的 
cost-to-go PRC AA TAE Be oD I o 
"不同 的 cost-to-go BRAY AE Ay — TH [al AY A E R 
另外 ,下面 的 事实 对 所 有 动态 规划 方法 都 是 基本 的 
O" (ip Gi) = min Q" (Gia) (12.25) 
这 里 "是 最 优 策略 ，J FE AL cost-to-go PARE. 
用 我 们 处 理 0 - 因子 和 贪心 策 路 的 概念 ， 可 以 揪 述 策略 移民 (policy iteration) Ak, FFI 
地 ， 算 法 交替 在 下 面 两 个 步 又 中 运行 (Bertsekas,1995b)}; 
LARK RMR, APPR, MARS Ay 
动 求 当前 策略 的 cost-to-go 函数 值 和 相应 的 Q- 因子 的 值 。 
2. 策略 改进 步骤 ， 宙 新 当前 策略 使 其 成 为 第 一 步 计 
算出 的 cost-to-go PRAY AY ot D> Fe ag 
这 两 个 步骤 见 图 12-3。 上 有 具体 地 ， 我 们 从 革 一 初始 策略 
w 开始 ， 然 后 产生 -- 系 列 新 策略 喇 ， 记 ，…。 设 当前 策略 





图 12-3 策 酷 选 代 算 法 框图 
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Alu, , Perley Sem aE SRY. oT cost-to-go 图 数 Jo (i), IEA Ree Pe Pe eS 


看 式 (]2.22))， 
J Ct) = elispn id) + DAEA AO LS dg leg (12.26) 
其 中 Fe CEL FP (2), FON ER. 使 用 这 些 结 果 ， 我 们 对 状态 -行动 对 (i，a 
it O -因子 {参看 式 (12.23)) 
QO" (isa) = Ca) +t YP) EM b= 1,2,°,N (12.27) 
接着 ， 通 过 计算 如 下 定义 的 新 策略 ,来 完成 策略 改进 : 
Hoe (i) = arg min Q“ (i, a) i= 1,2,°-,N (12.28) 
PRE ea Po, BMAP RAIA 
Petey = J Cz) 对 所 有 i 
此 时 终止 算法 于 策略 各 BF Jot 过 (参看 习题 12.5$]) ， 可 以 说 经 过 有 限 次 兴 代 后 策略 达 
代 算 法 会 结束 ， 因 为 固有 的 Mako 决策 过 程 仅 有 有 限 数 日 的 状态 。 表 12-1 概括 基于 式 
(12.26) 和 (12.28) 的 策略 选 代 算法 。 
表 12-1 策略 选 代 算法 水 结 





1. 从 任意 的 初始 策略 po 开始 。 
2. 对 所 有 的 状态 iE ita aC. 计算 gee COM GaG, a). n=O, 1, 2, > 
3. 计 每 一 个 状态 5， 计 算 

i Ga) ie as omis Or (i a) 
4,882, 3-6, ER pr Ge, A, IRTA p, 就 是 所 求 的 策略 。 


12.5 ARR 


在 荣 略 迁 代 算法 中 ， 算 法 每 次 磷 代 过 程 必须 重新 计算 整个 cost-to-go 函数 ， 这 样 代价 是 
IRSE. RAES RR IARR AY cost-to-go 函数 很 相似 ， 很 遗憾 这 个 计算 也 没有 显著 的 改进 。 
然而 ， 有 画 外 一 种 用 于 寻找 最 优 策 略 的 方法 能 够 在 计算 cost-to-go PRAT EE ES th 
算 。 这 个 以 逐次 再 近 为 基础 的 昔 代 方法 就 是 值 远 代 算 法 。 

{Eik F (value iieration) 算法 涉及 半 一 序 齐 有限 范围 问题 中 的 每 一 个 求解 Bellman 最 优 性 
方程 (12.22)。 当 算法 的 迁 代 数 且 赵 二 无穷 时 ， 在 极限 处 有 限 范围 问题 的 cost-to-go 函数 对 
所 有 的 状态 一 致 收 全 于 相应 的 无 限 范 围 问题 的 cost-to-go BRK ( Ross, 1983; Berisekas, 
1995b ) 。 

FOR EAERAE TRA n SRA i AY cost-to-go 函数 。 算 法 从 任意 的 猜测 
Jo) HR, i=1, 2, °°, No JC -ARBEI AAR, 对 于 有 限 范围 问题 ， 这 是 
SENDAN HY o wR IL COST- tO- EO 图 数 I Ci} AY St— fh iT ay AN, 那么 它 应 该 被 用 作 初 始 值 
Joli}. 一 旦 选择 了 Jeti), YEO LOTH cost-to-go BREF J G), AOD, +, ERA 
算法 
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h 
Jie) = ming c(i.a) + yp, (ah, f, o ere | (12.29) 


对 于 状态 i 应 用 式 (12.29) 描 述 的 cost-to-go PRA Er, CBR i A OPA X 4 (hacking up of 
is eost)。 这 个 支持 是 Bellman 最 优 性 方程 (12.22) 的 直接 实现 ,注意 对 状态 i H1, 2, on, 
N， 式 (12.29) 中 cost-to-go 图 数 的 值 证 算法 的 得 一 次 碗 代 夺 同时 更 新 。 这 个 实现 方法 表示 但 
迭代 算法 传统 的 同步 形式 ? .。 这样 ， 从 任意 的 初始 值 ICE). J2), es JCN FIR, “GRE 
代数 日 n 趋 近 无 穷 时 ， 式 (12.29) 措 述 的 算法 将 收 化 于 相应 的 最 优 值 (1)，J 了 "(2)，…， 
J? CN) CRoss, 1983; Bertsekas , 1995b ). 

与 策略 迭代 算法 不 同 的 是 ， 和 在 值 迭 代 算 法 中 不 尽 二 接 计算 最 优 策略 ， 而 是 首先 用 式 
(12.2) ARAE J O), J (2), +. FON), 然后 闭 得 大 于 该 最 优 集 合 的 贪心 策略 作 
ABLES MEW, 


u (i) = arg min 人 Ci,a), i=1,2,°:,N (12.30) :13 
ix O'Ci, aj=eli, a) +Y Dpy(a)T" G), i=l, 2, +, N (12.31) 
表 12-2 给 出 基于 式 (112.29)? 至 (12.31) 的 值 送 代 算 法 的 小 结 ， 其 中 包括 式 (12 .29) 的 停止 


EMI. 
表 12-2 HARRENA 


1. MARS il, 2, -, NINE Cee, 
2. %fn=0, 1, 2, =, HH 


depts = | 
at 而 an ee, 
重复 这 种 操作 育 到 
| 一 Se 对 每 一 个 状态 i 
这 里 的 是 指定 的 容许 参数 。 假定。 足够 小 ， 使 上 (站 充分 接近 最 优 conto BRS). RARE 
AD = J (2) 对 所 有 状态 i 
3. FA 0- EF 
O° (i,a) = elia) YS a 全 Wa EW Ai = 1,3, N 
fF 


FU, PRA AGREN J Cc ef R : 


p` di} = arg min O° (i,a) 


例 12.1 BAM ATR -ATEARI FREH., RPS RS E (stagecoach 
problem) 问题 。 在 19 抽 纪 中 时 密 办 里 的 一 个 们 和 运 妃 求 者 痪 证 去 西部 加 和 人 在 加 里 柱 尼 亚 的 徇 金 
fH (Hiller and Lieberman, 1995 )。 行 程 需 要 乘 荆 三 穿 过 不 安全 的 乡村 ， 语 途 会 有 强盗 攻击 的 危 
险 。 行程 的 起 始点 (密苏里 州 ) 和 终点 (加 里 福 尼 亚 州 ) 是 问 定 的 但 是 有 很 多 可 以 选择 的 路 
径 ， 有 可 能 经 过 其 他 8 个 州 ， 如 图 12-4 所 示 。 在 图 中 ， 我 们 有 以 下 规定 : 
*。 一 其 1 个 州 ， 每 个 州 用 一 个 字母 表示 。 
。 行进 的 方向 是 从 左 到 右 。 = 
。 从 开始 的 州 4( 密 苏 里 州 ) 到 终点 的 州 J( 加 里 福 尼 亚 州 ) 有 4 个 阶段 。 
* 第 运 氨 求 者 从 一 个 州 到 下 一 个 州 行 动 是 同上 (Up) 、 回 下 (Down) 或 直接 向 前 (Straight) 。 
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a MA 到 J 一 -共有 18 条 可 能 路 径 。 
图 12-4 过 包括 对 每 一 条 路 径 的 人 号 保险 策略 的 代 件 ， 选 择 每 一 条 路 线 是 基于 对 该 路 线 
的 安全 代价 的 仔细 评 佑 。 问 题 是 从 4 到 J 找到 一 条 人 人 身 保 险 最 便宜 的 路线 ， 





图 12-4 最 车 问题 的 流 问 图 


为 了 找到 最 优 路 线 ， 我 们 从 终 点 /开始 向 后 推演 ， 考 虑 -系列 有 限 范围 问题 ， 这 符合 
12.3 节 的 Bellman 最 优 性 原则 。 
计算 终点 前 的 最 后 一 阶段 的 Q - 因子， 从 图 12- Sa 可 以 得 出 终点 O- (AGE: 
O(H down) = 3 
OCT ,up) = 4 
这 些 数值 从 图 12-5a 可 以 分 别 得 出 。 
然后 向 后 再 移动 一 阶段 ， 使 用 图 12- Sa 得 出 的 9 -~- 值 ， 计 算 下 而 的 0- 值 : 


OCE, straight) = 1+3=4 
O( E, down) = 44+4=8 
OCF up) = 6+3=9 
OCF , down) = 34+4=7 
OC G,up) = 343-6 
O( G, straight) z 3+4=7 


由 于 需要 找到 最 小 保险 策略 的 路 径 ，Q - 值 表明 只 有 EH, F> A GH Hi 
留 ， 而 其 化 路 径 应 删除 ， 如 图 12-5b。 
骨 问 后 移动 一 阶段 ， 对 状态 B, C, DERDAH O- 因子 计算 ,保留 那些 有 最 低 安全 评 
615) 价 的 路 径 ， 就 得 到 图 12- $c。 
最 后 ， 丫 后 移动 到 第 一 阶段 ， 重 复 上 面 的 计算 ， 就 得 到 图 12-54。 从 图 中 我 们 看 到 共有 
3 条 最 优 路 径 如 上 下: 
A C-» E> Hj 
A> D- E> HJ 
A-* D-» F—> J J 
它们 产生 的 总 体 代 价 都 是 11。 
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图 12.5 计算 驿 车 问题 Q -因子 裕 及 的 步 又 


12.6 神经 动态 规划 

动态 规划 的 主要 目标 是 寻找 一 种 最 优 策略 ， 即 学 习 系统 对 环境 每 个 可 能 状态 应 该 采取 行 
动 的 最 优选 择 。 在 这 种 环境 中 ， 当 考虑 利用 策略 选 代 或 值 选 代 算 法 求解 一 个 动态 规划 问题 
时 ， 必 须 记 住 两 个 实际 问题 ， 

。 维 数 灾 。 对 现实 世界 的 许多 困难 问题 ， 可 能 的 状态 和 允许 的 行动 数目 如 此 之 大 ， 以 
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BY oh ad AM Pr ee VEE et hE MT A SON PA EAR AS BUT BE TRS A 
M OTH oI R a, a, PCE RB ARERR BAERS 
NOM MK. MN GRAIY, 3 75 25 EG Bo BE th AR BT BE. BaD, 
TAT (backgammon) A 10 个 状态 ， 这 意味 着 算法 的 一 次 夺 伐 利用 1000 MIPS 处 理 
etH G 1000 年 (Rarto et al, 1995)., 

。 不 完全 信息 。 TTA EUAIAI RIAR RA Markov (AIRE LA A, BP 
SRR aS LS ty, 我 们 需要 知道 状态 转移 概率 p 和 观察 代价 elia p. Tate 
的 是 ， 这 些 先 验 知 让 并 非 总 是 可 得 的 。 

由 于 这 两 个 册 难 中 的 任何 一 个 或 企 部， 我们 常常 放弃 最 优 策略 而 使 用 次 优 策略 . 

这 里 我 们 感 兴 趣 的 是 在 次 优 过 程 中 为 过 近 最 优 cost-to-go RA J? CGO, CER RTA 
涉 友 神经 网 络 的 使 用 或 (和 ) 模 拟 。 特 别 地 ， 对 一 特定 状态 i, DRERI Aliw) 
FRE, How Bee. pee Jt. WERA TR > 2 A ( scoring function ) aK 1 fi cost-to-po 24 
数 ， 函 数 的 值 ji,w) 称 为 状态 i 的 分 数 (seores) 或 近似 cost-to-go RH, AUIS 12-6 中 ， 
分 数 i,w) 为 输入 状态 i 时 神经 网 络 的 输出 。 这 里 利用 的 是 所 谓 通 用 通过， 正如 在 前 面 几 
得 贞 所 讨论 的 那样 ， 它 是 多 层 感 知 器 和 径 向 其 因数 网 络 的 回 有 特征 。 

我 们 有 等 别 兴 趣 的 动态 规划 问题 是 那些 具有 大 量 状态 而 要 求 寻找 有 较 小 维 数 的 参数 向 量 
WIPED PRR J 儿 ',w)。 这 种 形式 逼近 称 为 紧凑 表示 , 仅 需 存储 参数 问 量 w 和 评分 函数 
J(+ ,W) 的 一 般 结构 。 对 所 有 状态 EARE REN TESA j(i,w)。 对 于 给 定 的 神经 网 
EETA (PAN ERRA, LL SRS ein w, ATA EIA Ti, wR 
fel J” (让 的 一 个 满意 的 逼近 ， 

由 第 4 草 至 第 7 草 给 出 的 关于 有 教师 学 习 的 材料 ， 我 们 知道 ， 不 符 一 个 神经 网 络 的 类 型 
如何， 部 要 求 有 一 个 表示 该 任务 的 标定 数据 集 。 但 是 ， 在 动态 规划 问题 的 背景 下 ， 没 有 这 样 
的 训练 数据 ( 即 输 入 -输出 样本 | (站 可 用 来 训练 图 12-6 中 的 神经 刚 络 ， 使 得 在 某 种 
统计 意 尽 直 忧 化 它 的 谍 计 。 这 样 忧 一 的 可 能 性 是 利用 Monte Carlo 模拟 ， 这 里 利用 一 个 禁 代 模 
AU NEAR Markov 决策 过 程 的 实际 系统 。 这 样 导致 一 种 新 的 离线 动态 规划 运行 方式 ， 它 有 
如 下 潜在 的 好 处 (Bertsekas and Tsitsiklis, 1996 ): 

1. Al FART OR Be cost-to-go 也 
数 的 但是 区 别 神经 动态 规划 方法 和 传统 动 
态 规 划 带 近 方法 的 关键 思想 。 

2. 模拟 允许 利用 神经 动态 规划 方法 设 
计 没 有 明显 模型 可 用 芍 系 统 。 对 于 这 种 系 
统 ， 传 统 的 动 仿 规划 技术 是 不 可 能 用 的 ， 
因为 提供 状态 转移 概率 的 司 计 如 果 不 是 二 
可 能 孝 也 是 很 烦琐 的 。 

3. 通过 模拟 ， 可 以 隧 式 地 位 认 系统 中 最 重要 或 有 代表 性 的 状态 ， 即 那些 在 模拟 中 被 经 
贡 访 问 到 的 状态 。 结 果 ， 由 神经 网 络 发 现 的 评分 函数 可 以 对 这 些 特殊 状态 的 最 优 cost-to-go 
虹 数 所 供 一 个 好 的 这 近 。 对 一 个 困难 的 动态 规划 问题 最 终结 果 可 能 是 一 个 好 的 次 优 策略 。 

但 是 ， 重 要 的 中 要 认识 到 -下 引 人 和 人 逼近 ， 就 不 能 期 望 评分 医 数 j(:,w) 收 仑 到 最 优 的 
cost-to-go PAX J"(* )。 原 轩 很 简单 ，J*(- ) 可 能 不 存 选 定 的 神经 网 络 结构 所 能 精确 表达 的 函 





图 12-6 逼近 最 优 cost-to-go HR eS 
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WRAY 

在 下 向 两 节 里 我 们 讨论 两 个 cost-to-go KRUA A ol AS Ra he. 在 12.7 RY 
第 一 个 过 程 处 理 有 逼近 沫 略 适 代 ， 这 里 候 设 系统 大 有 可 用 的 Markov 模型 。 在 12.8 市 描述 的 第 
一 过 程 处 理 一 个 称 为 品 - 学 习 的 过 程 ， 它 仅 作 一 些 红 的 候 设 。 


12.7 EIERE 


BEERA — SESAR, AH ERR H IFRI DR HERR, A Te 
统 处 理 方 法 是 不 现实 的 : 假 刘 我 们 有 该 系统 的 异型 ， 即 转移 概率 p, (a) 和 观察 代价 
glia, AAU AIA. A sap ata, Fe ART PR APIA Monte Carlo 恒 所 和 最 小 二 
HEE TE rh fe FAR ER AY TA (Bertsekas and ‘Tsitsiklis, 1996 )， 

图 12-7 26 oy EE eB A A ER: 它 相 似 于 图 12-3 An FESR RR BE 
HER], (AA —P A Æ 12-3 PRR RAS RR EP eK. A 
UT A TA PAF PS 20 EEIT A A OS OK AA eB ER 

1. BRB RR, BE ARR yn， 对 所 有 ee 
状态 i 的 实际 cost-torge PARE I COIR EBT, BE Go 
cost-to-go PRR Cw). AB w 是 完成 逼近 的 神经 网 






HEIE 
2. 策略 改进 步骤 。 利 用 逼近 cost-to-go A J" Ci, 
WwW) 产生 政 进 的 策略 jy。 对 所 有 i， 新 策略 设计 对 J Ci, aie toe aT 
Ww) 是 贷 心 的 。 w 的 神经 网 络 | 策略 上 


由 于 通 近 策略 选 代 算法 产生 满意 解 ， 内 此 仔细 者 
woe te (LAE Be. MRA RAR ARABS 
Mio BRAIN AA MSE PAR (BI ow 开始， 用 它 导 出 
— 7 RULERS, BEA A ATER A BR RRR 

(Ee Bz RAS Fe AM A rh, FR oP Le, 

© —/MEE MUR ER 上 4 作为 初 她 策略 。 

© 一 个 状态 集 儿 代表 运行 环境 . 

+ HTT ic, cost-to-go AR JEDE 开外) 个 样本 集 ; 一 个 这 样 的 样本 记 为 kli, 

my, HH m=, 2, e, Mi) 

4 I" Ci, w) iL cost-to-go BAK J Ci) REL Aa, TEU PER ea an H a te 

算法 训练 的 多 屋 感 基 冀 )。 覃 经 网 络 的 参数 向量 w 利用 最 小 二 来 法 决定 ， 即 最 小 化 代价 函数 


Woo) 
Elw) = Dy Alim) = i wy (12,32) 
TAERE w JA ABE cost-to-go BPA J Ci, wa. FRAP Si Ae 
UE O- AF (BAA 12.20) F020 (12.23)): 
Oli,a,w) = dy Pye daira, s) + FCW) (12.33) 


其 中 p, (a) ATEATS aC Al) FARG i BARA PERE, oo (i,&, 门 是 观察 代价 (也 为 已 
Al), My ÆRET. WIE PMA, ae ee QQ - 因子 确定 一 种 改进 策 


图 12.7 jE RE AL A AL 
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OE | | 上 RE RCR Ce ee om | = .—— a — 四 





MS Ve IATL SA (11.26)): 
uli) = arg min Olia, w) (12,34) 

BB AUER, 3012.33) A112. 34) RE 
器 用 于 在 由 模拟 实际 访 河 的 状态 而 不 是 在 所 
有 状 仿 产生 行动 。 正 因为 如 此 ， 这 两 个 公式 
TRA Se Bl EER De BY Oy < 

图 12-8 给 出 -TiB RRA RR 
OFFA HE. 这 个 框图 由 四 个 开 连 的 模块 
组 成 (Bertsekas and Tsitsiklis, 1996) - 

1. RAS, EAA ARE TR A e e 
SF MLE Bl BS -E AR hh PE BA TR 
模型 。 模 拟 器 产生 两 类 东 此 ， (a) 模拟 环境 的 PV 12-8 BURRS CRA TEAM hf 
行动 进行 响应 的 状态 ，(b) 对 给 定 策略 的 cost-to-go KRE. 

2, 行动 发 生 器 ， 它 根据 (12,34) 式 产生 一 个 改进 策略 ( 即 一 系列 行动 )。 

3. cost-lo-go ELS, CIRS i ASA mE w 产生 在 式 (12.33) 和 式 (12.34) 中 使 用 的 副 
近 cost-to-go PEAK J" (i, w) 

4. 最 小 二 来 求解 器 ， 它 利用 由 模拟 器 对 策略 4 和 状态 i 提供 的 cost-to-go 国 数 严 ( 门 的 样 
本 ， 计 算 使 式 (12.32) 的 代价 函数 最 小 化 的 参数 向 量 w,， 只 有 充分 评估 一 个 策略 和 确定 一 个 
RASE w 之后， 才能 启动 从 最 小 二 乘 求 解 器 到 cost-to-go JH VGA ZETA. aT, H 
L’Ci,w" BAR cost-to-go 逼近 J" G, w) 

表 12-3 24 BIT REARS Ab. 

212-3 逼近 策略 送 代 算法 








Cte RA: 转移 概率 pi FR OR el i,j). 
WH. 
1. SR Pe TEAS 
2. EHAR Mar EF cost-to-go BGR JP CRRA kiim IEC) ERS SAR) sR ee 
Mic) 
w" = min &(w) = min Skim) - jr 

i z E Emi 
HERE w, 
3. 根据 第 2 Vie ee w, ARA AM cost-to-go RR JC i,w). MER O- 因子 ; 

Oli,a,w) = Y py (alelicass) + YH w} 
Le 
4. 硝 定 改进 策略 
nid) = WE maii Oli,a,wW) 
5. ERI FERAI 
ft: SRS PA 4 AI ETA ARE ERAR Ait. 


RASS, RPRRMSTIAARKA,. UA TRS Ala) eR Be EAI AT a e 
地 不 元 普 。 对 期 望 的 cost-to-go AROE Eh RE Pa ia o BRS TT BE 
AR AR Tie. PAM a me A Uh RB E w 的 调整 是 基于 
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fed eI Be, AERAR TrA. BEITA PRR [E F R AE E TE 
eAlS 一 定 的 误差 容许 限度 内 完成 的 ， 在 Bertsekas and Tsitsiklis( 1996) TEAR IB Ur RR ARE 
法 所 产生 的 策略 和 最 优 条 略 的 性 能 之 问 差 乐 的 因子 随 s H o RRISTE. Majlih, mi 
来 上 略 算法 具有 最 小 性 能 (差异 } 的 可 徘 保 证 。 根 据 Bertsekas and Tsitsiklis( 1996), 18 V0 R RETE 
算法 初始 阶段 能 够 取得 迅速 而 且 十 分 单调 的 进展 ， 但 在 极限 情况 下 -个 随机 性 的 持续 的 策略 
振荡 可 能 发 生 。 这 种 振荡 行为 出 现在 遂 近 cost-to-go AA J PARI BRR OLUA + 
2Ye)(1 一 了) AS. AP y 为 折扣 参数 ， 对 所 有 通 近 策略 迁 代 的 变 体 ， 它 们 都 明显 地 有 
导致 振 萝 行为 的 根本 结构 。 


12.8 Q- 35) 


图 12-1 中 增强 式 学 习 系 统 的 行为 目标 ， 是 在 试验 各 种 可 能 的 行动 序列 和 观察 引起 芍 代 

锥 以 及 发 生 的 状态 转移 之 后 ， 如 何 寻 找 最 优 ( 即 最 小 化 代价 ) 策 略 . 在 这 种 背景 下 我 们 可 能 提 
出 下 如 问题 ， 是 否 存在 仪 通过 基于 形式 为 

Se S (lye tna Be) (12.35) 

的 样本 获得 的 经 验 学 习 最 优 策 略 的 在 线程 序 ” 上 式 中 表示 离散 时 间 ， 每 个 样本 s, 组 成 一 - 

个 四 元 组 ， 描 述 为 在 状态 i 上 的 -一 个 试验 行动 a, ， 以 代价 g = ga 六) 导致 对 了 = 了， 

的 状态 转移 。 对 于 这 个 基本 问题 的 问答 是 断然 地 肯定 ， 它 是 由 Watkins( 1989) 发 现 的 一 种 称 

为 中- 学 习 革 的 随机 方法 。Q- 学 习 是 一 种 增 量 式 的 动态 规划 过 程 ， 用 - . 步 一 步 的 方式 决定 

最 优 策略 。 它 非常 适合 于 求解 没有 明显 的 转移 概率 知识 的 Markov 决策 问题 。 但 是 成 功 应 用 


-和 芝 当 的 天 键 在 于 假设 环境 状态 是 完全 可 观察 的 ， 这 加 蕊 味 者 环境 是 完全 可 观察 的 Markov 


irk 。 

回忆 12.4 TPIS -IAA i, a) Q- AF 90(1，a) 由 式 (12.23) 定 闵 ， 而 Bellman 
最 优 性 方程 由 式 (12.22) 是 多。 联合 这 两 个 方程 并 且 利 用 (12.20) 给 出 的 立即 期 望 代 价 cfi， 
xj) 的 定义 ， 我 们 得 到 


O° (ia) = Dp a)Cgli.a,j) + ymin Q` (7,6)3 对 所 有 (ai (12,36) 
这 可 看 作 Bellman 最 优 性 方程 的 两 步 形式 。 式 (12. 36) 的 线性 方 稳 组 的 解 对 所 有 状态 - 行动 对 
(i a) 惟一 地 定义 最 优 人 -因子 0* (i,a)。 
我 们 可 以 利用 基于 Q - 因子 构造 的 值 选 代 算法 求解 这 个 线性 方程 组 。 因 此 ， 对 于 算法 的 
一 步 选 代 我 们 有 
Q(i.a) = Sp, la i(gli.a,j) + Y min O(j,6)3 MT PRA Ci, a) 
SPEAR AY ANE RUT AT ER 
Oli,a) = (1-)Qli,a) + n Ep, aeli aj) + Y min O(7,8)) RY APA Ce. a) 


(12.37) 

ROP y SRD AFD BR, MFR O<n<1 内， 
从 它 的 形式 上 看 ， 由 (12 37) RRA RRS KER ERS ERER FN 
条 以 构造 (12.,37) 的 随机 方式 从 而 消除 对 这 一 先 验 知识 的 需求 。 特 别 ， 在 (2.37) 的 一 次 渤 代 
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PARTA A RETA AS KOR Ea EAB Si, Amh hast -ATRAEN AA: 
Onai a) = 1-9,0i.a))@ Cia) +4, ag a YADL Ni a) = Cha) 
(12.38) 
其 中 Ja (J) = min Qj, b) (12.39) 
H y AUR aS, ma ATETERS a n WRS -ITAR OT ESA E 
公式 《12.38) 应 用 于 当前 状态 -FANC ,a,)， 根 据 式 (12.35) 此 时 j=j.。 对 允许 的 其 余 状 
aS -ITAR Q- APPR AVE, 表示 为 
个 = O,¢i,a)} 对 所 有 (iya) ~ Ci ,a,) (12.40) 
A (13.38) rh (12.40) HR Q- FA HAAR. 


收敛 定理 
iF BBR yn (i, a) BLAH 
> (i,a) = o RG, a) < © 对 所 有 (i,a) (12.41) 


=i} 


HARF HK 产 趋 于 无 穷 大 时 ， 假定 所 有 的 状态 - 行动 对 被 无 限 地 经 常 访问 ， 那 么 ， 对 所 有 
状态 行动 对 (ia) 由 站 -学 习 和 站 法 产生 的 由 ~ 因子 序列 10,(i,a)| 以 概率 ] 收效 子 最 优 值 
0 (i a)o 

一 个 你 证 算法 收 或 的 时 变 学 习 率 参数 的 样本 为 


ct 


he ~ Ban 





sf = lod (12,42) 


EP a Al 8 AEX., 

DRC. QO-4IRKAEARRBR OIL R, AEKA ape Eta 
单个 状态 -行动 对 的 9 -因子 ， 即 观察 到 的 当前 状态 和 实际 执行 的 行动 。 最 重要 的 有 是， 无 尖 
形成 图 有 的 Markov 决 俩 过 程 的 明显 模 测 ， 算 法 的 极限 收 人 证 到 量 优 0 - 值 。 — HARE o - (AT 
用 ， 利 用 去 (12.30) 以 相当 少 的 计算 便 可 次 定 一 个 最 优 策略 。 

人 一 字 二 到 最 优 末 略 的 收 做 假设 使 用 QQ -因子 0, (i,a) 的 查 表 法 表示 。 这 种 表示 方法 简 
BATT Re (AD ARS - 行动 对 组 成 输 人 空间 很 大 或 者 输入 变量 是 连续 的 ， 使 用 查 
胡 法 需要 大 景 内 存 ， 因 而 开销 特别 大 。 在 这 种 情况 下 ， 我 们 可 以 利用 神经 网 络 进行 函数 通 
Bit Q- yy 

陈 (12.38) 和 式 {12.39) 定 区 当前 状态 - ITANA O- 因子 更 新 公式 。 这 一 对 公式 可 以 重 
写成 等 价 形 式 

Oi ' Aa) = Qali ; dy) 
+ Maf Eno An Pl ei + basta) + Y min Qah b) ~ @,04,,4,)] 


特 式 (12.43) 帮 边 方 插 各 内 的 表达 式 当 作 更 新 当前 O- AT @,G,.¢ J MRE S, RIT 
在 时 间 步 n 时 确定 目标 (期 望 )Q - 因子 为 : 


(12.43) 
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Oe Ct de) = g ihaj) 4 Y min Oho b) (12.44) 
其 中 sihn AARG. 7012.44) RERE Hie O- ATHERE n AREKE. 
利用 这 个 日 标 O- ATRAE., RIH HERE 0- BARA 
Oise) = Q, Lia) + AQ, (ia) (12.45) 
夫 中 当前 Q — PAY Bb GE A 
i W.4( O02" (i,a) - O,Ci,a)) Xia) = (1,54, } 
A i, tf = 
Oise) = | vo 
BEX, HMRS i HRE A a, EERE n 时 对 该 状态 上 有 具有 最 小 O- 因子 的 行 
动 。 因 此 ， 在 状态 二 ETA TULF KAT SH a Cot, RI O- AAS O,¢é,,@)}, 28012.44) pii 
用 的 最 优 行 动 a, 由 下 式 给 出 : 


Q, = min O (i ,a) 
= 


(12.46) 


人 targetf ia. w) 


( [2 .47 
F (i ,a 多) 表示 由 神经 
网 络 ( 例 如 利用 反 向 传播 算法 训 
练 的 多 层 感知 器 ?计算 的 Q- 因 图 12-9 HHP Bis O- 因子 O° (ia wR hjt iit 
T Q (isa BER. RAB EE w 的 神经 网 络 的 输入 为 当前 状态 -行动 对 (i a), 
生 输出 0, Cihan’ Ww), WEA 12-9 所 示 。 在 算法 的 每 步 选 代 中 ， 轻 微 地 改变 神经 网 络 的 权 值 
向 量 w 使 得 输出 0.(i, ,a, ,Ww) 更 靠近 目标 值 Dee G, a) HE. 一旦 权 什 向量 w 改变 了 ， 
昌 标 值 纲 间接 受到 影响 ， 也 就 是 改变 了 值 OTE (i ,a, ,Ww)。 因 此 不 能 保证 每 次 先 代 都 缩短 这 
两 个 Q- 值 间 的 距离 。 这 也 是 为 什么 但 近 Q- 学 习 算 法 可 能 发 散 的 原因 。 如 果 算 法 不 发 散 ， 
权 信 向量 w 提供 在 训练 后 的 神经 网 络 中 存 侍 副 近 的 Q - 因子 的 于 段 ， 因 为 神经 网 络 输出 
0, (i ,a 1W) 作 为 对 输入 (i ,a ) 的 响应 。 
表 12-4 给 出 通 近 Q -学 习 算 法 的 小 结 。 
表 12-4 通 近 局 一 学 习 算 法 小 结 
L AMSA] E wo HOG, H O- AT Oluawo: WEH E w 异 助 所 用 的 神经 网 络 完成 通 近 ， 
2. eee n=1，2，…， 司 下面 几 步 ， 
(a) 对 于 神经 网 络 设 定 的 w， 确 定 最 优 行动 


a, = min Q lind, W) 
sd, 


ae 





(bce H $r 0 - 因子 


Or (ins a Ww) = Bhasin ia + 了 min GO, ins WwW) 
boa, 
Co} ta O- 因子 
Quai lta stn W) = Oi Gn + AQ, C insp W) 
其 中 
aaa 一 OM tect, wi}, (i,a} = (i, sy} 
0, 其 他 
(PMRC in ,a 作为 神经 网 阁 的 输入 ， 产 生 输出 自 , i,.4,.wifER HER 0- IAS OM (a, wo, a 
政变 权 值 回 量 使 得 如 ne ,w) 蝎 靠近 目标 值 站 Eesti ao Ww) 
(SAA Rial, BITE. 


AQ, in: Aan W) = 
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探测 


在 策略 迭代 中 ， 状 态 空间 的 所 有 潜在 重要 的 部 分 都 应 探测 到 。 在 -党 习 中 我 们 有 一 个 
YER: 所 有 浴 在 有 用 的 行动 也 部 点 被 训 起 。 特别 ， 对 有 所有 爷 许 的 状态 -行动 对 应 该 经 东 
FRM Fe AE TK BK EA AU OE, OEP u BR, RARA -行动 对 (i,nt 让) 被 探 
m. eRe IPAS RE PRE A A AT, BERM Sc a AR as 28 [BD oh A SO 

FR Ties St AR A AT E He ARRE, MEP R Q- 244) (Thrun, 1992); 

。 探测 ， 它 保证 对 所 有 人 允许 的 状态 — 行动 对 探测 足够 次 数 以 满足 Q -~ ES 

。 HA, ERA OR LASERE ME cost-to-go PRX 

EAD phi E pA EA M e EA E i mixed nonstationary) RS, ERRE — T 
辅助 Markov 过 程 和 由 上 中- 学习 确定 的 稳定 贪心 策略 控制 的 原始 Markov 过 程 之 间 转 换 
(Cybenko, 1995) HIE A PURE: 可 能 状态 问 的 转移 概 说 由 原始 控制 过 程 的 转移 概率 
确定 ， 原 始 过 程 具 有 附加 成 分 ， 其 对 应 的 行动 是 一 致 随机 性 的 。 混 合 策略 从 辅助 过 程 的 任何 
状态 开始 ， 随 之 选择 行动 ， 然 后 切换 到 原始 控制 过 程 ， 以 图 12-10 中 的 方式 向 前 或 向 后 进 
行 。 消 耗 在 辅助 过 程 上 的 操作 时 间 占 有 固定 数 日 的 工 步 ， 比 如 说 ， 定 交 为 访问 辅助 过 程 所 
有 状态 的 最 长 期 望 时 间 的 了 两 做 。 消 耗 在 床 始 控制 过 程 的 时 间 随 每 次 切换 逐步 增加 . Sn, 表 
不 从 辅助 过 程 到 原始 控制 过 程 的 切换 时 间 ，m 表示 切换 回 辅助 过 程 的 时 间 ， 冯 Fl m, 分 别 
ELA 

m= mathe A esil 
Al mM, =n, + kb, kal, 22. == 
KERDE ko Bt, MERI UTADA UC, ATREA RI 0 - 
Alf. E— i, 4k, E R ee LAER RE AE EER 
#2 hl ABAD BRE BY el aS, RRR IRAE Aaea Lb. AE, 
如 果 中 -因子 收 化 到 它们 的 最 优 值 ， 贪 心 策略 确实 必定 是 最 优 的 ， 只 要 策略 变 为 贪心 策略 
Eby AE ie HTS o 


铺 助 过 程 
原始 控制 过 程 
m=i om my n mh 7; 


图 12-10 ”属于 辅助 过 程 和 原始 控制 过 程 的 时 间 段 
12.9 计算 机 实验 


在 这 个 计算 机 实验 中 重新 讨论 在 例 12.1 PSB RAR. RIA At O- 
“Rh a, AAP ASB. 一 种 方法 使 用 表 来 表示 0 - 值 ， 另 一 种 方法 使 用 神经 
ZEZ 

图 12-11 给 出 使 用 表 方 法 的 下 列 QO - 因子 的 学 习 历 史 : QCA, up), OCC, straight ), 
GCE, straight) Al OCI, upis 在 图 12-11 中 虚线 表示 期 望 的 0 - 值 。 每 次 试验 为 从 状态 / BI 
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标 状 态 J SCR BRE. AERA AFT REAR ASL Bi, I Ry, Ch, EXA 


( ; ) av, li, a) E 
mia E K+ 2, lia) 
20 20 
15 15 
w ip a 10 
4 Cy 
5 5 
0 0 
10 20) 30 40 10 20 30 

试验 试验 

a} b} 
20 20 
15 15 
m 10 mj 10 

cy 已 
5 5 
0 0 
10 20 30 40) 50 100 200 30 400 
试验 试验 
c) d} 


图 ]2-11 FASE ES SS R 
HOCA opie Hee bd OCC, smigh McA) A 
cj Of, straight Ae d) OCS, up hA hi 


HP (i, a) AKARNA a 为 止 所 访问 的 状态 -行动 对 的 数目 ，a= 1.6， 久 = 600。 总 共 完 成 
1000 次 之 后 ， 找 到 最 优 路 线 为 

4 一 万 一 下 一 了 一 了 
这 是 一 杀 确 认为 最 优 路 线 ， 忆 的 代价 为 11。 

图 12- 12 RRA AA PRA TA, 10 个 隐 巷 单元 各 1 个 轿 出 神经 元 的 多 层 感 若 器 疾 得 的 
相应 结果 。 一 个 输入 六 点 代表 状态 而 男 一 个 节点 代表 从 一 个 状态 到 下 一 个 所 来 取 的 行动 。 多 
层 感 知 器 的 输出 表示 网 络 计 算出 的 0 - 值 。 光 络 使 用 标准 的 反 向 传播 算法 。 在 时 刻 rn 时 使 
用 的 月 标 品 -便利 用 (12.44) 计 算 。 学 刁 率 参数 设置 为 0.012， 没 有 使 用 动量 。 对 每 个 状态 - 
行动 对 训练 网 络 10 000 TK. 图 12-12 表示 Q - 从 的 学 习 历 史 ; OCA,up), OCC, straight), 
OCE ,straight) 和 Q(T,up)。 网 络 发 现 的 最 优 路 线 为 

A> D>E>H— /J 
1X itt — FRU RE, BURA LL. 


ww ai bbt.com TAAWAOAA 





on 


E 


= Ge 





20 20 
15 15 
m 10 Top 
A Q 
3 5 
0 0 
20 40 60) 80 100 20 40 60 80 100 
Dae (x100) 试验 (100) 
a) 0) 
20 20 
15 15 
w lü im 10 
© oO 
5 5 
0 0 
20 40) 60 80 100 20 40 60 30 100 
试验 (x100) 试验 {x100) 
c) d) 


图 12-12 利用 神经 网 络 求解 又 车 闪 题 的 学 避 曲 线 
al OCA, op) Hale bb) GCC, srmeht HAE -A AR 
GLE stright HIS HSE a OCF up MISt 2) Bee 
两 种 实现 方法 的 计算 要 求 小 结 如 下 ， 
ay 昼 经 网 络 : 
输入 数目 = 2 
隐藏 神经 元 数目 = 10 
输出 神经 元 数 自 =1 
突 触 权重 和 偏 置 总 数 日 =2x10+10+10xl+1=41i 
(DERE: 
REA A = 10 
行动 数目 =2 或 3 
表格 大小 = 21 
[628] FEIX PSE PA RAS HIED, FARA SRE RE EA RAEE, (8 
fe TEAS LA PRATER A, PARI EE REORDER. 


12.10 ”小结 和 讨论 


结合 经 典 的 动态 规划 的 数学 形式 和 神经 网 络 的 学 习 能 力 ， 神 经 动态 规划 为 需要 规划 的 行 
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AML Se AAR BAT. PERRET HEN, RAESTE: 通过 观 
Re ABM ARCHER, AGA RRL Eta. TA eR ERM. Markov 

在 本 草 我 们 摘 述 了 两 种 神经 动态 规划 过 程 : 

1. i RBA, MRA TER RZ ee FH 

© RECRE. Mi “FAVES HY cost-to-go PAK. 

: fe BSN ae y xT 当前 cost-to-g} 明 数 用 贪心 策略 更 新 当前 策略 。 

任远 近 束 酷 和 迭代 中 ， 结 合 模 拟 和 图 数 道 近 以 评 个 策 赂 。 为 了 模拟 系统 的 Markov 模型 ， 
SUK AUR SRE. AUT RRO, RTT AAPA (AMS RRA. 12 
in) ae BR 24 ee ee), ASAHI, RE SAY. 

2. BEQ- FJ. 在 值 迭 代 中 ， 作 为 策略 选 代 的 蔡 代 物 ， 利 用 收 伍 于 最 优 策 略 的 逐次 道 
近 过 程 求解 Markov Bea), O- 学 习 是 值 选 代 的 异步 形式 ， 这 是 为 了 避免 需要 状态 转移 概 
SSH RAR MeN. ERAS SARS AOR: 

。 URFA RRRS - 行动 对 都 被 无 限 经 常 地 访问 ， 且 学 习 率 参数 满足 由 式 (12.41) 给 定 

的 条 件 ， 那 么 日- 学 习 以 概 率 1 KAIRA 9 - A. 
”人 0 学 习 卫 接 黑 新 和 最 优 策略 相关 的 Q - 因子 估计 ， 从 而 避免 策略 选 代 中 涉及 的 多 次 
he HS OK EL 2 RR o 

EIU Q-Se-J Pp, BASSE at 9- 因 了 的 佑 计 是 为 了 在 可 能 的 状态 数 日 很 大 时 
避免 需要 过 量 的 存储 要 求 。 简 言 之 ， 道 近 虽 -学习 是 在 无 系统 模型 可 用 日 存储 要 求 过 大 的 情 
Oo PAF RAR Markov 次 策 问题 的 基于 模拟 的 算法 。 当 然 ， 它 甚至 可 用 于 有 系统 模型 可 用 的 
TROL, BOI BE Ea REC RK. 

PRES BU AS LRU Te OR EE oR A EE E> AY AL A A A) PF ck AB I] 
串 ， 由 于 需要 搜索 的 状态 空间 太 大 ， 传 统 的 动态 规划 方法 很 难 应 用 。 确 实 ， 神 经 动态 规划 已 
成 功 应 用 于 求解 许多 不 同 领 域 的 肝 难 的 现实 此 界 的 问题 ， 包 括 十 五 子 权 (Tesaum, 1989, 
1994;， 组 合 优 化 (Bertsekas and Tsitsiklis, 1996), B4 PAIE (Crites and Barto,1996) 和 动态 频段 分 
Aid (Singh and Rertsekas , 1997; Nie and Haykin, 1996, 1998} 。 TP eg Fea) AS GE A He Fg Rot E a TR 
A HA s 

在 Tesauro( 1994) A RR E T ATAARE RIETTE nutit, HATE Tesauro 
(1994) h T A, CEARA RRRA, HAORA ae GAR 
中 研究 的 源泉 。 十 五 于 棋 是 -一 种 古 疮 的 双人 棋盘 游戏 。 滑 着 -- 条 有 效 的 :一 维 路 径 对 弈 。 游 戏 
MAST OTR. FAR ee Ae I KA, RRA HSA ET 
Kea HARA. SEACH ART RAE ARAA ARE. DF 


戏 可 用 一 个 Markov ROR TAREE, TE ADIR AS EN a A A Ds TR DRE AYER ARR, i 


BIERES. Tesauro( 1989) H HKE Sew HA- 十 五 子 棋 的 最 禄 形式、 给 定 状 态 的 
“lig 摘 述 ， 它 能 学 会 中 等 钠 上 的 水 平 。 报 道中 也 许 最 有 趣 的 发 现 为 良好 的 规模 效应 ， 也 就 
是 说 ， 神 经 网 络 的 大 小 和 训练 次 数 增加 到 -- 定 规模 ， 可 以 观察 到 性 能 有 重要 的 提高 。 研 究 使 
用 的 神经 网 络 为 使 用 上 反 门 传播 算法 训练 的 多 层 感 知 髓 (MLP)。 利用 具有 向 个 隐 苞 神经 元 的 
MLP 对 总 共 200 000 局 游戏 进行 训练 获得 了 最 好 的 性 能 。 在 随后 的 Tesauro(1994) 研 究 报 告 中 ， 
利用 一 种 称 为 乐 规 (Coptimistic}TD(X) 的 策略 迭代 形式 训练 神经 网 络 。'TD{X} 代 表 时 序 差分 学 
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习 ， 这 归功 于 Sutton{ 1988)。 乐 观 TOO) E Fi iE cost-to-go 函数 J" 的 基于 模拟 的 方法 ， 在 
该 方法 中 策略 a 被 新 的 策略 p 所 替代 ， 新 策略 u 在 每 步 状态 转移 时 带 近 J* 起 贪心 的 
(Bertsekas and Tsitsiklis, 1996). 甘于 这 个 神经 动态 规划 方法 的 计算 机 程 夺 遂 营 称 为 TD -十 五 
FH; Tesauro 添加 了 状态 的 ( 即 特征 ) 提 取 函 数 作 为 狂 经 网 络 输 人 人 表示， 使 得 TD - 十 五 子 棋 
村 到 优秀 大 师 的 水 平 ， 非常 接近 于 世界 上 最 好 的 棋 手 。 交 持 这 个 论断 的 事例 是 大 景 有 大 
人 -十 天 下 棋 各 儿 个 世界 级 棋 王 进行 对 琵 的 试验 (Tesauro,1995)， 


注释 和 参考 文献 


aa 


[5] 


ERAF ARRA A AR TGH, AWA] Thomdike(1911) 关 于 动物 学 习 早 
期 的 工作 和 Pavlov 1927) 关 于 条 件 反射 的 研究 ， 对 传统 增强 式 学 习 的 方法 的 贡献 还 包括 
Widrow et al. (1973) CIE; 在 那 篇 文 草 中 ， 引 大 了 评价 (eritiec) 的 概念 。Hampson( 1990) 
以 书 的 形式 讨论 传统 的 增强 式 学 习 。 

对 现代 增强 式 学 习 的 主要 贡献 包括 Samuelf(1959) 有 关 他 的 著名 的 模子 游戏 程序 的 工作 ， 
Barto et al. (1983) RF BIG MIE Tt ABER PE, Sutton (1988) 关 于 时 序 差分 (temporal 
difference) 方 法 的 工作 和 Watkine( 1989) 关于 0 一 学 习 的 工作 。White and Sofge( 1992) 天 于 
车 能 控制 的 手册 纵 出 关于 White 和 Jordan 的 最 优 控制 、Haro 的 增强 式 学 习 和 自 适 应 评 
MELA Be Werbos 的 启发 式 动态 规划 的 材料 。 

Bertsekas and Tsitsiklis(1996) 溃 一 次 以 书 的 形式 给 出 现代 增强 式 学 习 的 处 理 ，。， 有 关 增 蝇 
式 学 习 的 历史 资料 ， 参 看 Sutton and Bartof 1998) 。 

动态 规划 由 R. E. Bellman 等 在 20 世纪 50 年 代 晚 期 提出 ， 和 参看 Rellman(1957), Bellman 
and Dreyfus( 1962) ， 有 天 二 主题 的 详细 展开 参看 Bertsekas(1995b) 的 两 卷 书 。 

束 略 选 代 和 值 和 迭代 是 动态 规划 的 两 个 主要 方法 。 另 外 有 两 个 值得 注意 的 方法 :， Gauss- 
Seidel 方法 和 异步 动态 规划 {Barto et al., 1995; Bertisekas，1995b)y。 在 Gauss-Seidel 方法 
中 ， 串 行 扫描 所 有 状态 ， 每 个 状态 根据 其 他 状态 的 最 新 代价 进行 竞争 ， 在 一 个 时 刻 只 
黑 新 一 个 状态 的 oost-to-go 图 数 。 异 步 动 态 规划 和 Gauss-seidel 的 区 别 在 于 它 没 有 组 织 
Watkint1989) 值 他 的 博 十 论文 的 第 96 页 ， 对 0 - Sea PF Pe: 

附录 1 给 出 这 个 学 导 方 法 对 有 限 Markov 决策 过 程 工 作 的 证 明 。 证 明 也 表明 该 学 习 方 
法 会 很 快 收 化 到 最 优 行动 -~ 值 号 数 。 虽 然 这 是 非常 简单 的 思想 ， 据 我 所 知 ， 以 前 从 术 
锌 明显 提出 。 但 是 必须 指出 ， 有 限 Markov 决策 过 程 和 随机 动态 规划 用 于 若干 不 同 领域 
已 经 被 广泛 研究 三 十 多 年 了 ， 它 不 愉 Monte- Carlo 方法 那样 以 前 无 人 考 虚 过 。” 

任 对 这 些 评 论 的 一 个 足 话 中 ，Barto ct al.(1995) 指 出 ,虽然 对 状态 - 行动 对 鼎 值 的 思想 
被 Denardo(1967) 所 采用 ， 构 成 动态 规划 方法 的 基础 ， 但 他 们 没有 看 见 比 Watkins 的 
1989 论文 更 早 的 像 -学习 这 样 用 于 估计 这 些 值 的 算法 ， 

Watkins( 1989) 给 出 Q -学 习 收 合 定 理 证 明 的 概要 ， 后 来 在 Watkins and Dayan 1992) H 2 
由 了 其 改进 。Tsitsiklist1994) 给 出 了 人 Q 一 学 习 收 合 的 更 一 般 的 结果 ， 也 可 参考 Bertsekas 
and Tsitsiklis{ 1996} . 
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>] al 
Bellman BY ae tE Wl 

12.1 ARMAS y RA LAY, (12.22) cost-to-go 力 数 的 计算 变 长 。 为什么” 说明 
你 的 回答 的 理由 ， 

12.2 在 本 题 中 我 们 给 出 由 Ross(1983) 得 到 的 关于 Bellman 最 优 人 性 方程 (12.22} 的 男 一 个 
HE AR : 

(aS x AE BARR, (BO n 在 时 间 步 0 选择 行动 a 的 概率 为 p, ，a Ex。 那么 


PGO) = D plela) + D) pya) WG) 


其 中 PODREIS 1 以 前 的 cost-to-go 函数 的 期 望 ， 这 里 假设 在 时 间 步 工 状态 为 ; 
且 使 用 策略 x。 出 此 证 明 
FUD = min (c(i, a) + 了 Sp (a) JG) 
其 中 Ey) 
(b)4 n EERE OAIT a, 的 策略 ， 如 果 下 一 个 状态 为 )， 可 看 作 过 程 以 状态 ; 
开始 ， 遵 循 策略 n 使 得 
Pa FG) +e p 
HP e 是 一 很 小 正 数 。 由 此 证 明 (632| 
Ji) > min( eli a) + y X} pCa) JG)) + Ye 
(e 用 fa) 和 (b) 导 出 的 结果 证 明 式 (12.22)。 
12.3 式 (12.22) 表 示 NN 个 方程 的 线性 方程 组 ， 每 个 状态 用 一 个 方程 。 邻 
F = DPO), FQ. PO) 
eu) = Lell, u) e2) esel Niu) |? 


pun) pulg) nen Pin (ys) 
P(r) 7 pa (4) pap e= Pas 
pmte) Palt) ree Pawn (p) 


证 明 式 (12,22)H 以 重新 与 成 等 价 的 矩阵 形式 ， 
(I- YP) J = ei) 
BRPIARiHE. Dea NMRA cost-to-go PAX A [el gt J’ 的 惟一 性 。 
12.4 在 12.3 中 我 们 推导 用 于 有 限 范 围 问题 的 动态 规划 算法 。 在 本 题 中 对 一 个 折扣 
问 赴 车 新 推导 这 个 算法 ， 其 中 cost-to-go 函数 由 下 式 定 尽 ， 


-1 
TE 一 lim| S) elk, CX, FP. ORD. 
me aad 


fraie, HEH 
Je Xa) = ma El g(Xo sp Xo), X) + YJ (X) 
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RIALS 
12.5 在 12.4 节 中 我 们 说 cosi-to-go PRA E 
Jr =< pfs 
证 明 这 个 论断 : 
12.6 讨论 式 (12.25) 描 述 的 论断 的 重要 性 。 
12.7 利用 控制 器 评价 系统 (controller critic system), PEAR REAR HR AR 
略 求 值 之 间 的 相互 作用 。 
(Bik ft 
12.8 一 个 动态 规划 问题 涉及 总 共 个 允许 状态 并 个 允许 行动 ,假定 使 用 一 个 稳定 策 
BS, WEAR RRR IRIRARRERA N M 的 操作 。 
12.9 #2 12-2 给 出 依据 对 状态 EZH cost-to-go HM JC) PA RRB EAR 
Hio WE 0 -因子 04，a) 重 新 构造 这 个 算法 公式 。 
12.10 RREA EES R DAI, (AERC RB EPR GK. Hib Rp 
态 规 划 方 法 之 间 的 其 他 差异 。 
Q - 学习 
[2.11 证 明 
633 J (i) = min O(i,a) 
12.12 Q- FUR AMIR RH Bie es. TPA. 
12.13 构造 由 表 12-4 “AGRI O- 学 习 算法 的 信号 流 图 。 
12.14 Æ 12-4 小 结 的 逼近 日 - 学 习 算法 假定 缺乏 状态 转移 概率 的 知识 。 假 定 可 以 用 这 
些 概率 ， 重 构 这 个 算法 。 
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第 13 章 使 用 前 馈 网 络 的 时 友 处 理 


13.1 简介 


时 间 是 党 要 过 程 的 基本 组 成 。 它 可 以 是 连续 的 ， 也 可 以 是 鹿 散 的 。 无 论 其 形式 如 何 ， 时 
间 是 一 个 有 序 实 体 ， 是 在 实践 中 遇 到 的 许多 认 知 任务 如 视觉 、 语 痛 、 信 竺 处 理 以 及 马达 控制 
的 基础 。 通 过 将 时 间 引 人 神经 阿 络 的 和 运行， 使 它 能 跟踪 在 一 些 非 平 稳 过 程 (如 语音 信和 号 、 雷 
达 信 和 号， 发 动机 引擎 信 上 芒 、 股 票 市 场 价格 波动 ) 中 统计 的 变化 。 问 题 是 : 我 们 如 何在 神经 网 
络 运 行 中 能 人 时 间 ? 这 个 基本 问题 的 答案 在 于 两 个 可 能 方法 之 一 : 

* 隆 式 表示 。 时 间 是 通过 其 作用 于 信和 号 处 理 的 效果 以 一 种 隐 含 方式 来 表示 的 上 。 例 如 ， 

输 和 人 信号 经 过 统一 采样 ， 和 网 络 输入 导 相 连 的 每 个 神经 元 的 罕 触 权 值 序列 和 输 人 样 
本 的 不 同 序 列 作 疮 积 (convolyed)。 这 样 ， 输 入 信和 号 的 时 间 结 构 散 入 在 网 络 的 空间 结 
构 里 。 
* 显 式 表示 。 时 间 由 它 自身 的 特定 表示 给 出 中 。 如 蝙 蚁 的 回声 定位 系统 是 通过 发 射 短 
的 频率 调制 (FM) 人 信号， 使 得 对 于 每 个 限制 在 FM 扫描 期 间 的 很 短 的 一 个 时 间 段 的 频 
违 维 持 相 隔 的 强度 等 级 。 被 一 组 听觉 接收 器 编码 的 几 个 不 同 频 率 之 间 的 多 种 比较 是 
为 了 抽取 目标 物 的 准确 的 距离 信息 (Suga and Kanwal,1995)。 当 从 目标 的 回声 在 经 一 
段 未 天 时 征 以 后 被 接收 时 ,一 个 具有 匹配 的 延迟 线 的 神经 元 (在 听觉 系统 ) 进 行 响 应 ， 
从 而 提供 目标 范围 的 估计 和 值 。 
在 这 一 章 里 我 们 关心 时 间 的 隐 式 表达 ， 这 由 对 一 个 静态 神经 网 络 (如 骆 层 感知 器 ) 提 供 动态 属 
性 而 得 到 。 从 而 使 得 神经 网 络 对 信息 杀 载 信和 叶 的 时 间 结 构 作 出 响 永 。 

为 了 使 神经 网 络 为 动态 的 ， 必 须 给 它 记 忆 (memorr)。 正 如 第 2 章 指 出 那样 ， 记 忆 可 分 为 
“短期 "和 “长 期 记忆， 这 要 依赖 十 保留 时 和 间 。 神 经 网 络 的 长 期 记忆 是 通过 监督 学 当 建 立 的 ， 
由 此 训练 数据 集 的 信息 内 容 存储 (部 分 或 者 全 部 ) 在 网 络 的 突 触 权 值 上 。 但是， 如 果 当 前 的 这 
项 任务 有 一 个 时 间 维 数 ， 我 们 需要 某 种 形式 的 短期 记忆 使 神经 网 络 为 动态 的 。 一 个 简单 的 蛮 
神经 网 络 结构 内 建立 短期 记忆 的 方法 就 是 使 用 时 延 (time delay)， 这 可 以 在 网 络 内 部 的 突 触 层 
或 网 络 的 输入 层 来 实现 。 在 神经 网 络 中 使 用 时 延 是 受到 神经 生物 学 启发 ， 因 为 在 入 脑 中 信号 
延 返 无 处 不 在 ， 并 且 它 在 神经 生物 傅 息 处 理 中 起 着 重要 作用 (Braitenberg, 1967, 1977, 1986; 
Miller. 1987} 。 


本 章 的 组 织 


本 章 的 内 容 分 为 三 个 部 分 。 第 一 部 分 ,包括 13.2 节 和 13.39, 论述 网 络 结 构 和 模型 。 
在 13.2 节 ， 我 们 讨论 记忆 的 结构 ， 接 下 来 的 13.3 节 描述 对 于 倩 号 时 间 处 理 的 两 种 不 同 的 网 
络 结构 。 

本 章 的 第 二 部 分 包 插 13.4 节 到 13.6 节 ， 论 述 一 类 被 称 为 集中 时 误 的 前 馈 阿 络 的 神经 网 
26: 不 语 " 集 中 ”foeused) 指 的 是 短期 记忆 被 全 部 放置 在 网 络 的 前 端 。 在 13.6 节 讨论 这 一 结 
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构 的 计算 机 实验 。 

A= FPS}, 包括 13.7 节 公 13.9 节 ,论述 分 布 式 时 注 前 馈 网 络 ， 在 这 种 网 络 中 延 述 
线 被 分 布 于 整个 网 络 。13.7 节 描 述 一 个 神经 元 的 时 空 模型 ， 接 下 来 在 13.8 节 论 述 刚 刚 提 到 
的 第 二 类 神经 网 络 。 在 13.9 节 讨 论 用 于 分 布 式 时 注 前 饶 网 络 的 监督 学 习 的 “时序 " 反 向 传播 
Bt. 

zA 13.10 FF PU ERR HIP-F AAR. 


13.2 短期 记忆 结构 


记忆 的 主要 作用 是 将 一 个 静 钙 的 网 络 转 变 成 一 个 动态 的 网 络 。 特 别 地 ， 将 记忆 馈 人 到 诸 
如 通 筷 胸 多 层 感 科 兹 的 藤 态 网 络 往 构 中 ， 网 络 的 输出 变 成 时 间 的 函数 。 建 立 非 线性 动态 系统 
的 这 种 方法 是 直接 的 ， 因 为 它 对 职责 作 了 明确 的 分 离 : 静态 网 络 负责 非 线性 的 处 理 ， 而 记忆 
负责 时 间 的 相关 处 理 。 

短期 记忆 ”可 以 在 连续 的 时 间或 离散 的 时 间 中 实现 。 连 续 时 间 用 上 表示， 离散 的 时 间 用 


* 表示 。 图 19-! 中 电阻 - 电容 电路 图 就是 一 个 连续 时 间 记 忆 一 WA 下 一 
HAT., EER IEE A pk apia EERO A Oti E] + WAS 输出 信和 号 
的 撒 数 隆 数 喜 减 。 在 本 章 后 而 描述 的 神经 元 加 性 模型 的 模拟 oo 
实现 中 ， 这 个 电路 在 突 触 级 伍 责 记忆 ， 这 一 方 我 们 主要 关心 图 13-1 电阻 电容 电路 
离散 时 间 记忆 。 


处 理 离 散 时 间 系 统 的 一 个 有 用 工具 是 z - BRR. Ol x(n) ARBAB], WE 
到 无 限 的 过 去 。 它 的 z 一 变换 (ELH 


ios Sia (13.1) 


a= —-o 


BOP oz ee PAL IRR EA OR, 作用 在 x(n) E, PEREA x(n-1). Bie 
xz{ 2 用 于 脉冲 啊 应 AC EP RRR ASE. PRS y(n PRR RPE: 


y(n) = >) ACK) a(n - k) | (13.2) 


a(n) FICK, y(n POE RSE Oe Rn)。z -变换 的 一 个 重要 性 质 是 时 间 
域 上 的 着 积 变 成 了 域 上 的 素 积 (Opperheim and Schafer, 1989; Haykin and Van Veen,1998 )。 我 们 
QA aE SOP PU ACA Cn) AY 2 -变换 分 别 为 H(z) 和 了 (x}， 则 有 


Yiz) = H(z} A(z2) (13.3) 
或 者 等 价 地 H(z) = Hs (13.4) 


PRY AC 2) PRAA FRSA 1% A oh HK (transfer function) a 

图 13-2 显示 一 个 含有 p PHT SRR aT BL ICIZtE; 今后 p 称 为 记忆 的 阶 。 
每 个 站 达 片 段 ， 吉 以 看 作 操 作 符 ， 由 传递 明 数 GEER WEEER). A, EAH 
段 可 以 根据 肪 冲 啊 应 g(tn) 来 描述 ， 具 有 下 述 两 个 特征 : 

” HHA RH, M4 n0, ef{n) =0。 

， 它 是 归 一 化 的 ， 即 有 >， i gn) i= is 


因此 g(rn) 称 为 离散 时 池 记 忆 的 产生 核 。 
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单元 1 单元 2 单元 p 


A s 


ee SE 
a Si 


图 13-2 p BN ML AIRA IH 


根据 图 13-2， 我 们 可 以 形式 地 定义 离散 时 间 记 忆 为 线性 时 间 不 变 的 单 输 入 多 输出 系统 
(single input-multiple output, SIMO ) HWH ERWEE TAH 那些 本 记忆 输出 端点 
HERPA, PRA a (tap). 注意 对 一 个 p 阶 的 记忆 来 说 ， 共 有 p + 工 个 抽 头 ， 只 有 一 个 
柚 头 是 属于 输入。 

本 以 用 这 度 和 分 辩 率 来 衡量 记忆 结构 的 属性 。 设 记忆 结构 中 总 的 脉冲 响 庶 为 g (n), 4E 
SLA gtn) 的 p TEKER, ROP SH Cc) Het z- 变换。 记忆 深度 记 为 D, 定义 为 
g, (2) AY — ep [8] $2 ( moment) , 表示 为 


D = D4 ng,(n) (13.5) 


MRR D 的 记忆 只 能 将 信息 内 容 保 持 较 短 的 时 间 ， 而 高 深度 的 记忆 则 能 保持 较 长 时 间 。 
WIL PICA 尽 ， 指 的 是 每 个 单位 时 间 内 记忆 结构 中 的 抽 涉 数 和 有利 。 一 个 高 分 辨 举 R 的 记 
忆 生 构 能 将 输入 的 序列 信息 保持 在 祖 确 的 层次 上 ， 而 低 分辩 率 的 记忆 结构 只 能 保持 在 粗粮 的 
后 次 上 。 当 抽 半 数目 固 定时 ， 记 忆 深 度 和 记忆 分 辨 率 的 乘积 对 p 阶 记忆 是 一 个 常量 。 

选择 不 网 的 产生 核 g,(n) 会 产生 不 同 的 深度 D 和 分 状 率 站， 这 可 以 用 下 面 两 个 记忆 结构 
来 说 明 。 

柏 头 延迟 线 记 忆 ”图 13-3 显示 的 框图 是 短期 记忆 最 简单 和 最 常用 的 形式 ， 称 为 拍 头 延 
i& R 1212 (tapped delay line memory), EBA p 个 单位 延迟 操作 符 ， 每 个 都 表示 为 6G{z) = 
zo AL, POE BOY gp(n) = 6(n -1)， 其 中 其 中 St4) 是 单位 脉冲 





l, = Ü 
dals | (13.6) 
Q, n 0 
输入 sn Bee all nat 
fee oO 


Hiper xt - p) 


FS IU 


图 13-3 通常 的 p 阶 抽 头 延迟 线 记 忆 


图 13-3 的 抽 头 延 述 线 的 总 脉冲 响应 为 g,(n) =n- p) 将 g(n) 代 入 式 (13.5) 中 产生 记忆 
深度 了 DD=p， 这 一 点 直观 上 是 满足 的 。 从 图 13-3 中 我 们 可 以 着 出 每 个 单位 时 间 内 只 有 一 个 抽 
头 ; 因此 ，R = 1。 这 样 抽 头 延 述 线 的 记忆 深度 随 着 p 的 阶 数 增 大 而 线性 增长 ， 但 是 它 的 记 
忆 深 度 在 单位 时 间 内 是 固定 不 变 的 ; 并 且 它 的 深度 - 分 辨 率 乘积 也 是 一 个 常数 。 
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dailies UT) BRE SE Tiida el. BOE AY Lodi Pe sy e 
Ret SH Sh Tie IR Be BY REE. HA m d 输出 


Gamma 记忆 ”图 13-4 显示 用 于 被 称 为 gamma #3 7 信和 号 
记忆 的 记忆 结 梅 的 基本 功能 块 6(z) 的 信号 流 图 。 


Le 
特别 地 ， 记 忆 结 构 的 每 个 部 分 包含 一 个 带 有 单位 


RR ”的 反馈 环 以 及 一 个 可 调整 的 参数 u 每 一 图 13-4 个 gamma 记忆 片段 的 信号 流 图 
个 这 样 部 分 的 传递 也 数 为 p 
Gz) = = 2 (13.7) 





l- (1 -nz ~ ps) 
为 了 稳定 性 ，C 22 在 z=1-A 处 的 惟一 极点 必须 在 z FSA, BR 


O< pe 2 (13.8) 
Gamma 记忆 的 产生 核 是 GOs) A 2 一 变换 ， 即 
gin) = el —- pi, ngl (13.9) 


式 {13.8) 中 的 条 件 保证 e(o BEA n PEK I eS 
Gamma 记忆 总 的 脉冲 啊 应 是 总 的 传递 函数 的 道 z - 变换 


G,(z) = (- 7 | 





一 
Bil sje np (13.10) 


其 中 (:) 是 由 {| = 全 2 中 一 人 = 二 定义 的 二 项 式 系数 ，n Alp 为 整数 。 对 于 不 同 的 
PP， 总 的 脉冲 蚁 应 g,(n) 表 示 Gamma PBC BAR RAL AY BS BIE A (deVries and Principe, 1992 ), 
这 正 是 记忆 命名 的 原因 。 图 13-5 显示 一 艇 脉冲 响应 g(rn}， 它 们 对 & 归 一 化 ， 其 中 上 =0.7， 
p=1,2,3,4. RTE 13-5 PNA SHER p 标 度 。 这 种 标 度 具 有 将 g,{n) 的 峰值 定 
位 在 fii = p 的 作用 。 

1 





Bi 

0.6 

galn) 
0.4 §3(7) 
0.2 y > gtn) 

LS id 

心 PE =a a 

2 4 6 8 10 


图 13-5 对 p=1,2,3,4 的 Gamma 记忆 的 脉冲 响应 艇 ,其 中 久 =0.7 
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EE ee le ON EE EE cs rs a Le 


Gamma 记忆 的 深度 为 piu, DIFEN p, WE -PP ENRE po HWH, Arif 
ISFE u B, ATEEN p, Gamma EER EIR ER HRA ME (Be T 
分 辩 率 )。 当 =1 工 时， 这些 量 将 减 至 各 目的 抽 头 延迟 线 上 假设 的 值 。 因 此 ， 抽 头 延 还 线 只 是 
Gamma 记忆 的 一 个 特例 。 这 个 结论 癌 样 可 以 在 式 (13.9) 中 设置 p=1 得 到 证 实 。 如 果 上 点 大 于 1 
WANF 2, JAU- 站 在 这 个 方程 中 变 为 负 值 ， 但 是 绝对 值 小 于 Lo 


13.3 用 于 时 序 处 理 的 了 网络 体系 结构 


时 序 处 理 的 网 络 结构 不 只 一 种 形式 ， 这 正如 记忆 结构 一 样 。 在 这 一 节 我 们 将 描述 两 种 前 
aR RY, ENA OME OT A 


NE T taik 


NETtalk 由 Sejnowski and Rosenberg(1987) ii}, HRB HILAR TRASH 
行 分 布 式 网 络 的 一 个 例子 。 一 个 音素 {phoneme) 是 一 个 基本 的 语言 单位 。 图 13-6 就 尼 示 一 个 
NETtalk 的 示意 图 ， 它 建立 在 一 个 多 层 感 知 器 的 基础 上 ， 输 入 层 有 203 个 感知 节点 的 ， 隐 藏 
RA 如 个 神经 元 ,输出 屋 有 26 个 神经 元 。 所 有 神经 元 使 用 sigmoid (logistic) MUIR PK, 1X 
个 网 络 的 宽 触 连接 有 18 629 个 ， 每 个 神经 元 包含 有 可 变 的 阐 值 。 立 值 是 偏 置 的 负 值 。 这 个 
网 络 使 用 标准 的 反问 传播 算法 进行 训练 。 
教师 


输出 神经 元 CD 


隐藏 神经 元 ”Coocecccocccccococcecocn 


Sf AAANS 


源 节点 OD CD Gace COO 0000 O000 con 


{ - 4 = i a i - } 
图 13-6 NETtalk 网 络 体 系 结构 的 示意 图 


这 个 网 络 有 七 组 输入 节点 。 每 组 对 输入 文本 的 1 个 字母 进行 编码 。 从 而 每 次 将 7 个 字母 
组 成 的 串 呈 现 给 输入 层 。 训 练 过 程 的 期 望 响 应 是 和 ?了 个 字母 窗 只 中 央 的 一 个 ( 即 第 4 个 ) 相 联 
系 的 正确 首 系 。 另 外 6 个 字母 (在 中 则 字母 两 边 各 3 个 ) 对 网 络 的 每 一 个 决策 来 说 提供 部 分 
的 上 下 文 。 通 过 一 个 字母 接着 一 个 字母 的 方式 使 文本 通过 窗口 。 在 处 理 的 每 一 步 中 ， 网 络 都 
计算 一 个 音 京 ， 每 学 完 一 个 单词 后 ,网 络 的 突 触 权 值 就 根据 计算 出 的 发 音 与 正确 的 发 音 的 接 
URES EAT Veh 

NETtalk 的 性 能 展示 了 和 观察 到 的 人 特性 的 一 些 相 似 之 处 ， 可 总 结 为 以 下 开 点 (Sejnowski 
and Rosenberg, 1987 }. 

* RAFTA N HRE (power law). 

* WSSU Aime, CRASE A E AE RER 

* 当 网 络 的 突 触 连 接受 破坏 时 ， 网 络 性 能 的 下 降 非 常 缓慢 。 
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© FERRE. TB ees, AIRS ER ET) IER. 
NETtalk E A HoH SPURS A eb a. 在 开始 的 时 候 ， 在 它 的 输 和 人 模式 中 有 具有 
大 量 “ 先 天 ”的 知识 并 有 通过 实 肛 逐 并 获得 将 英语 语音 转化 为 痛 素 的 能 力 。 但 是 ， 它 达 没 有 走 
[a] SE BRAY AA. 
时 延 神经 网 络 


使 用 普通 的 时 间 延 迟 来 执行 时 序 外 理 的 通用 神经 网 络 就 是 所 谓 的 时 延 神经 网 络 (time 
delay neural network, TONN), F Lang and Hinton(1988) 利 Waibel et al.(1989) 第 一 次 描述 。1TDNN 
ce TEEMAA, OBR CA PE SA ae), BRIT A Fe ohh 
FARE AAS H Pd ( spectrogram ) 12 AMA (BE) ANS BEB AY OP BE RES 
TERRE — KERR, HARAR, AI a], BURR ORE) Sa 
的 能 量 相 对 应 {Rabiner and Schafer, 1978). 图 13-7 显示 TDNN 一 个 隐藏 层 珍 式 {TLang and 
Hinton,1988)。 输 入 层 包括 192(16 x 已) 个 用 于 对 声 谱 进行 编码 的 感知 节点 。 陷 藏 层 包含 8 个 
隐藏 神经 元 的 10 次 复制 ， 而 输出 层 包含 4 个 输出 神经 无 的 6 次 复制 。 一 个 隐藏 神经 元 的 不 
同 受 制 应 用 相同 罕 航 权 值 集合 到 很 窄 的 (三 倍 于 时 间 步 长 ) 声 谱 窗 口 之 中 :相似 地 ， 输 出 神经 
元 的 不 同 复制 应 用 相同 突 触 权 值 集合 到 由 隐藏 层 计算 出 的 伪 声 谱 图 的 很 罕 的 (5 个 时 间 步 长 ) 
窗口 之 中 。 图 13-7b 对 图 13-7a 的 复制 神经 网 络 提 供 时 延 解 释 ， 因 此 称 为 “时 延 神 经 网 络 ”。 
这 个 了 网络 共有 544 TEMA., lang and Hinton(1988) 使 用 TDNN 对 四 个 孤立 的 词 ， 





() 
(a) 4 个 输出 单元 ， 
加 O 每 个 和 所 有 隐 
| PR 藏 单元 连接 
| ___ 出 20 
Abt fi] HE GK 
= 2 K 123.45 








STARAN. 
EN E ETEEN J 每 个 和 所 有 输 
/\ AT SRE 
了 
At fe] #38, 
1,23. 
输入 单元 
WT RS 16 输 入 节点 
时 间 切 片 
eer ee 
12 z 
a) h) 
图 13-7 


of Fi Fe Sa ky a 2 cH a E BY A 
by) AY RE SS SS TONN baer (2b seit. WA K.J. Lang and G.E.Hinton, 1988) 
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“hee”, “dee”, “ee”, “vee EINE, SERER 13-7 中 使 用 由 个 输出 神经 元 。 通 过 使 有 不 同 
于 训练 数据 的 测试 数据 获得 了 93 免 的 识别 率 .. 在: -个 更 精心 研究 的 报告 中 Waibel et al. 
(1989) 司 用 了 画 个 陆 藏 层 ， 用 于 识别 二 个 孤立 的 单词 ,“bee” “dee" 利 “gee"。 用 二 个 人 的 发 
首 作 为 测试 集 ， 在 性 能 测试 中 ， 取 得 了 平均 昭 .5 名 的 识别 率 。 

TONN 对 于 包含 一 串 辣 定 维 数 特征 向 量 ( 比 旭 音 素 ) 的 时 序 模式 的 识别 具有 最 好 的 效果 。 
但 是 ， 在 实际 的 语音 识别 涡 中 ,假设 讲话 的 信和 号 能 被 正确 地 切 分 为 它 的 组 成 音素 是 不 切合 实 
PRET, FALL, 对 语音 模式 的 超 切 分 (super_segmented) 时 序 结构 怡 当 地 建立 模型 是 重要 的 。 特 
别 ， 语 音 识别 胡 不 得 不 去 处 理 对 于 持续 时 间 变 化 很 大 的 词 和 句子 片段 以 及 非 线 件 时 序 结构 。 
归 对 硬 首 信号 的 这 些 日 然 特征 进行 建 模 ， 语 音 识 别 领域 的 传统 目 法 是 使 用 一 个 状态 转换 结 
t, PUREE TS Markov 模型 一 样 (Rabiner 1989; Jelinek,1997)。 基 本 上 ， 隐 式 Markov 模型 (hidden 
Markov model，HMMD) 表 未 由 回 有 号 尔 可 夫 链 产 牛 的 随机 进程 ， 以 及 与 隐 含 状态 相 联 系 的 一 组 观 
察 分 布 ; 参见 第 11 章 注释 [11]。 在 文献 中 已 有 很 多 混合 型 TDNN 和 HMM 被 研究 。 


13.4 集中 式 时 滞 前 馈 网 络 


闪 访 神经 网 络 (如 多 层 感知 此 ， 径 向 基 函 数 网 络 ) 的 原型 应 用 是 结构 化 模式 识别 。 相 反 . 
时 六 模式 识别 要 求 对 随时 间 演 化 的 模式 进行 处 理 ， 对 特定 时 刻 的 响应 不 仅 依 顿 于 输入 的 当前 
值 ， 还 依赖 于 以 前 的 值 。 图 13-8 显示 建立 在 静态 神经 网 络 寺 的 非 线 性 滤波 器 的 框图 (Mozer， 
1994)。 网 络 是 通过 得 期 记忆 来 模拟 的 。 特 别 地 ， 例 如 给 定 由 输入 人 号 的 当前 值 xn MUR È 
AYE p (MEx(n-1),--,2(n- p) RMA, CITRE p 阶 延 迟 线 记忆 上， 调整 神经 网 
络 的 日 由 参数 使 得 网 络 条 出 y(n) 与 期 望 响应 d(n) 的 平方 误差 达 芭 最 小 ， 

ES 13-8 所 示 的 结构 可 以 三 单个 神经 元 级 或 者 一 个 神经 元 网 络 级 来 实现 。 这 两 情况 分 别 
ŒR 13-9 和 图 13-10 给 出 。 为 了 简化 表达 ， 我 们 用 了 抽 头 延迟 线 记 忆 作 为 图 13-9 和 图 13- 
10 中 的 短期 记忆 和 结构。 很 明显 ， 这 两 个 图 都 可 以 通过 使 用 传递 函数 Ct zy 单元 代替 7 


行 推广 ， 


图 13-8 建立 在 静态 神经 网 络 上 的 非 线 性 滤波 器 


图 13-9 中 的 时 序 处 理 单 元 是 由 其 自己 的 抽 头 连接 到 神经 元 突 和 触 的 抽 头 延迟 线 记 忆 组 成 
的 : 撞 头 算 返 线 记忆 捕获 包含 在 输入 信 节 中 的 时 序 依 息 并 县 神经 元 将 那个 信息 嵌 人 到 它们 自 
CARARE H. B 13-9 中 的 你 理 单元 称 为 集中 式 神 经 滤波 器 (focused neuronal fler), $p 
的 意义 在 于 整个 记忆 结构 部 位 于 单元 输入 的 未 端 。 滤 波 器 的 输出 ， 对 输 人 e(n) A ATEK 
值 x(n -1),…,xtn 一 p) 的 响应 ,出 


输入 
x(t) 





dlr) 


ww ai bbt. com PO00ODOO 





470 





x(n ~ p) 
图 13-10 SERRA RTL): WHT RE 


y(n) “él tit. teh) (13.11) 


fame, SAP, p OEHHA j APR, w DOERR, b 是 偏 置 。 注 意 激 活 函 数 的 
HATS WEI CA A EAS ARE AY SE A A AR 
FRA 13-10, EK? AR AF aT i M 4 (focused time lagged feedforward network, TLFN )， 
这 里 我 们 有 一 个 更 强大 的 非 线 性 滤波 器 ， 包 售 有 p LRA AS RR, E 
WAI eRe. FATT OS 4 章 描 述 的 标准 的 反 向 传播 算法 。 在 时 刻 n， 应 用 于 网 络 
fs A Fe FRR BA fi le 
x(n) = [x€n),a€n -1),°+,x2€n - pi 
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LEM BF tn PEG OF AP RE IE 4/1 


el 


Ra WA ESE EERE A 站 的 状态 描述 。 一 个 时 段 包括 一 系列 状态 (模式 )， 其 数 
量 由 记忆 阶 p AUR PEAR AY BEEN 决定 。 
如 图 13-10 所 术 ， 假 设 多 层 感 知 吕 有 一 个 隐藏 屋 ， 非 线性 滤波 器 的 输出 由 


y(n} = S) wy;(n) = Sl wo DY, (Dx = 4) 4 b,) + b, (13.12) 
给 出 ， 其 中 集中 式 TLFN 的 输出 神经 元 假定 是 线性 的 ; 输出 神经 元 的 突 触 权 值 由 集合 jz e 
ATR, mi FERRE BAAS, b, 为 网 络 的 俩 置 。 
13.5 计算 机 实验 


在 这 个 计算 机 实验 里 ， 我 们 对 图 13- 10 中 TLFN 的 使 用 进行 研究 ， 模 拟 一 个 困难 的 频率 
三 制 信 身 的 时 间 序 亿 ， 
x(a) = sin€n + sin(n’}),n = 0,1,2, 


MATES PROS, PAR fala- DL RRMA, on + 世代 表 期 望 的 响应 。 网 


ERER ERICIN p: 20 
隐藏 层 m: 10 个 神经 汇 
隐藏 层 神经 元 的 激活 明 数 : logistic PHA 
输出 层 ， 1 修神 经 元 
输出 神经 元 的 激活 郴 数 ， 线性 负数 
学 习 率 参数 (两 层 ): 0.01 
BA Bt Tt aX A 
用 于 训练 网 络 的 数据 集 有 500 TEER, ESR MOREY aln RE 
20 个 时 序 样 本 。 


图 13- 11a 显示 由 网 络 对 测试 数据 (以 前 未 见 过 ) 执 行 的 单 步 预 测 结 果 及 实际 波形 的 释 加 。 
图 13- 11b 显示 预测 的 误差 波形 ， 这 个 误差 定义 为 实际 波形 和 预测 波形 之 间 的 差别 。 预 测 误 
= WEAN 1.2 x 107°, 


1.5 ee 





D sü 100 150 20} 250) 300 
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时间, 
b) 


图 13-11 BAP RMT Lee 
alSchn( SEER RTE A Re RE DRE 


13.6 通用 短视 映射 定理 


图 13-9 中 的 非 线 性 沽 滤器 可 以 推广 为 图 13-12 所 示 的 滤波 器 ,这 个 一 般 的 动态 结构 包 
请 两 个 功能 模块 。 标 号 为 1 1 的 模块 表示 时 域 的 多 重 着 积 ， 那 就 是 说 一 个 并 行 运 行 的 线性 
Dei ie fh; 是 从 一 个 较 大 的 实 值 核 集合 中 提取 出 米 的 ， 每 一 个 都 代表 善 一 个 线性 滤波 器 
的 脉冲 响应 。 抉 标号 为 的 模块 表示 静态 的 ( 即 无 记忆 的 ) 非 线性 前 馈 网 络 ,如 一 个 普通 的 
SRR. Fl 13-12 中 的 结构 是 一 个 通 
Al 2) & WA SS (universal dynamic mapper). 
在 Sandberg and Xu(1997a) 中 证 明 对 于 任何 





ME ES AR BE R HE oR Ht (myopic map), EIA ene N pa 
度 的 条 件 下 利用 图 13-12 描绘 的 结构 能 够 
以 任意 精度 一 致 通 近 。 要 求 一 个 映射 为 短 
视 的 等 价 于 “一 致 衰减 记忆 ”"; 这 里 假设 映 
尉 是 因果 的 (causal)， 这 意味 着 一 个 只 有 在 BBR Pitz 
(RH 性 网 络 


?= 站 时 应 用 输入 信号 时 ， 才 在 时 刻 n=O SE ) 
由 映射 产生 输出 们 号。 对 "平移 不 变 ”， 我 
们 基 指 如 果 y(n) 是 映射 对 输入 x Cn) PEE 
的 输出 ， 那 么 对 于 平移 输入 xfn - no), 映射 的 输出 就 是 y(n -~ ny， 这 里 时 间 位 移 mm 是 一 
个 整数 。 在 Sandberg and Xu(1997b) 中 ， 他 们 进一步 证 明 对 单 变量 的 、 平 称 不 变 的 、 因 果 的 和 
H EMEI, FEA Gamma 记忆 和 静态 神经 网 络 ， 它 们 的 组 合 能 够 以 任意 精度 
一 致远 近 该 映射 。 

我 们 现在 可 以 正式 地 将 通用 短视 映射 定理 ” 描述 如 下 ; 

任何 平移 不 变 的 址 视 动 态 映 射 可 以 由 含有 了 两 个 功能 块 的 结构 任意 地 一 发 通 近 ， 一 组 线性 
滤波 器 馈 给 一 个 静态 神经 网 络 。 


这 个 定理 包含 的 结构 可 以 采用 集中 式 TLFN 的 形式 。 注 意 当 输入 和 输出 信人 号 是 有 限 数 晶 
秒 量 的 晒 效 时 (如 图 像 处 理 )， 定 理 依然 成 立 。 

通用 短视 定理 有 着 很 这 的 实际 意义 。 它 不 仅 对 NETtalk 及 可 能 的 Gamma 记忆 扩展 提供 数 
字 基 础 ， 而 县 对 更 复 示 的 动态 非 线性 处 理 模 型 的 设计 建立 框架 。 在 图 13-12 结构 前 端的 多 个 
卷 积 可 以 使 用 线性 滤波 器 (通过 有 限 溃 激 响 应 (FIR) 或 者 无 限 冲 激 响 应 (HR)) 来 实现 。 对 于 静 
态 神 经 网 络 ， 它 可 以 用 多 层 感 知 嚣 、 径 向 基 函 数 网 络 或 者 支持 向 量 机 由 第 4、5 和 6 章 介 绍 


Me] 13-12 通才 短视 时 射 定理 的 一 般 半 构 
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UR RAR SEB). Bei, EALE PAGAR TAE ae SO, EJA 以 
很 自然 地 建立 非 线 性 滤波 器 或 非 线性 动态 过 程 的 模型 。 最 重要 的 是 ,假设 线性 滤波 器 本 身 是 
ER). Fl 13-12 中 的 结构 是 辕 有 稳定 的 . 因此 ， 对 于 怎样 处 理 短 期 记忆 和 无 记忆 非 线性 
性 ， 我 们 对 它们 的 作用 有 清晰 的 分 工 。 


13.7 神经 元 的 了 时空 模 型 


如 图 13-9 所 示 的 集中 式 神 经 泪 波 器 在 这 里 有 一 个 很 有 意思 的 解释 。 单 元 延迟 元 素 与 相 
应 的 突 甬 权重 之 间 的 组 合 可 以 看 作 是 p 阶 的 有 限 冲 激 啊 应 (FIR) 滤 波 器 ， 如 图 13-13a 所 示 。 
PIR 淡泊 徐 在 数字 人 情 叶 处理 中 为 一 个 基本 的 构件 (Oppenheim and Schafer, 1989; Haykin and Van 
Veen,1998)。 相 应 地 ,图 13-9 中 的 集中 式 滤 滤器 实际 上 是 一 个 如 图 13-13b 所 示 的 非 线 性 滤 
avo RU 13-14 所 示 ， 在 此 表示 基础 上 遂 过 使 用 数量 为 mo 的 多 个 输入 我 们 可 以 扩充 神经 
3 的 宇 河 处 理 能 力 。 图 13-14 是 多 输入 神经 元 滤波 器 的 时 空 模型 。 

xin) x(n — 2) 


- xf{n-p +1) x(n - p} 








w (0) 





F 
s(n) = È, w,(k) xin ~ k) 
k=() 


yAn) 





b) 
图 13-13 
al AR re Oe A (PIR Ieee bipper RTE FIR 滤波 器 解释 


x Cn) g Sal) = 2 
1 
(74) 


yir) 
Bie PSY cJ 


5 FIRAS 
Aan Tito 
图 13-14 PS A PS TA 


然而 男 一 种 描述 图 13-14 的 模型 的 方式 是 将 其 看 作 一 个 分 布 式 神经 元 滤波 器 ， 这 是 在 过 
小 行动 在 空间 的 不 同 点 上 是 分 布 的 意义 之 下 。 模 型 的 时 空 特征 描述 如 下 ， 
© 神经 元 有 m PE RH, 每 个 主 突 触 包含 一 个 以 zp 阶 FR 形式 实现 的 线性 离散 时 
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wear; 主 突 甬 计算 信号 处 理 的 空间 维 。 


ZÈ 


© ETERRA Cp + DAWE RAS BO AA FIR 滤波 器 的 记忆 抽 头 相连 接 ， 


它们 计算 信号 处 理 的 时 间 维 。 


在 图 13- 14 中 的 这 个 神经 元 滤波 器 的 突 触 结构 是 树 形 的 ， 如 图 13-15 HE, R 


值 的 数目 为 mofp+1l)。 


至 记忆 1 的 抽 
A (ARRA). r 
至 记忆 2 Aa 
Te (包括 输入 ) | . rr 
Sidi, m AR 
J 包括 输入 } ; pa 
辅助 完 触 
图 13-35 


激活 
TA 


ERM 


Sl A AES TO a RS R E AE 


TERCERA P, FRA ay LORE EE Ce Be ae TT AST Ss A EK A 


™ p 
y(n) = p>; Dy wi (i) x(n — I} + b ) 
其 中 wo, (DRT i PER ARAL PR, x, (am) 是 在 时 刻 5 应 用 于 第 ;个 主 
ARATE, y 为 应 用 于 该 神经 元 的 储 置 。 神 经 元 的 诱导 局 部 域 为 w (na)， 也 就 是 在 式 
(13.13) 中 的 滞 活 函数 pl' ) 的 变量 ， 它 可 以 看 作对 如 下 连续 时 间 公 式 的 离散 时 间 “ 近 似 ”: 


日 rt 
y(t) = D| Ayal - adr b 
在 陈 413.14) 中 积分 是 连续 时 间 和 输入 信号 (2) AeA Rk 计 的 线性 连续 时 间 滤 波 器 的 冲击 响 


应 向 (总 的 卷 积 。 式 (13.14) 是 一 个 神经 元 诱导 局 部 域 时 空 行为 的 最 通常 描述 方法 。 


加 性 模型 


(13.13) 


(13.14) 


FA C13. 14) 2 th AAAA FB ET sR, RBIS, eR SR 
RE "BL E Ha i ie FES AG PE, ETA CAC RO BO, ERATA 


h(t) = Wy * h;(£) 
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(13.15) 
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其 中 a, Ce RRP BA ER i, SPA meti, AP ee 


元 j 和 输入 i 之 间 连 接 的 符号 (兴奋 的 或 抑制 的 ) 和 总 强度 (Shamma,.1989 )。 这 样 在 式 (13.14) 
中 代入 式 (13.15)， 并 且 通 过 交换 积分 与 求 和 次 序 ，、 我 们 得 译 


È mo “和 
y(t) = | mC Dh wali- D) da b = (2) *( Dorey. (e)) + 《13.16) 


HPEY EER. TA eA BEATER RE a EA 


h(t) = L expl - +| (13.17) 
Al q de Pat ld eS, CERAT j ARESA 3013.17) PRATER (4) 被 看 
必 是 简单 电路 的 冲击 啊 应 ， 该 电路 由 电阻 R BYE C. 组 成 ， 从 一 个 电源 得 到 馈 给 ;， 即 
ri = RC, (13.18) 
因此 ， 我 们 使 用 式 (13.16) 和 式 (13.17) 构 造 图 13.16 中 模型 的 公式 。 使 用 物理 术语 ， 突 
PASTEL mwj ,ws ,… ,wm 为 电导 率 ( 即 电阻 的 倒数 )， 而 各 自 的 输入 x1 Ce), a(t) ty Co) E 
电位 ( 即 电压 ) 硝 示 。 求 和 连接 由 低 输 入 电阻 、 单 位 电流 增益 和 高 输出 电阻 来 表征 ; 即 它 就 是 
作为 对 输 人 电流 进行 求 和 的 节点 。 因 此 馈 人 电阻 - H 4 ( Resistance-Capacitance, RC ) 电 路 的 总 
电流 为 


"ig 

>, wx (2) +i. 
其 中 第 一 个 ( 求 和 ) 项 是 由 于 刺激 2 Ce) 2 0) ae, Ce) BIE FP R i A EC PSE) wy, 
wa,… ,ww ， 而 第 二 个 项 是 表示 外 部 作用 偏 置 5 的 电源 了。 


在 神经 网 络 文献 中 ， 图 13-16 中 的 神经 元 模型 通常 称 为 加 性 裤 型 (additive model). 2X 
模型 可 以 视 为 生物 树 突 神 经 元 的 分 布 式 传输 线 模型 的 块 状 电 路 近似 (Rall,1989 )。 由 于 生物 
突 触 本 重 斌 是 一 个 低 通 滤波 器 的 良好 近似 ,这 也 可 以 说 明 图 13-16 中 的 RC 电路 低 通 特性 的 
Sm. 





xf ¢ F wt) 
! 
W 
T #2 Wott) 
yo AA O f ame 了 一 
Fg © 和 连接 axi) 
Wim = 
Amt) © 
Wins on 全 Ato 


图 13-16 神经 元 的 加 性 模型 
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13.8 SPARGE A a MN 

通用 短视 喘 射 算法 提供 集中 式 TLFN OS ee, EPR. i Ne 
性 暗示 集中 式 TLFN 只 适用 于 平稳 {即时 间 不 变 ) 的 环境 ,， 我们 使 用 分 布 式 时 澡 (distributed time 
lagged) 前 馈 网 络 ， 可 以 克服 这 个 局 限 ， 分 布 式 的 意义 在 于 隐 信 的 时 间 影 响 分 布 于 整个 网 络 。 
ET es eS SEF ES 13- 14 的 多 个 输入 神经 元 滤波 器 作为 神经 元 的 时 空 模型 

令 w, DRS FIR WIRES i! 个 拙 涉 相连 接 的 完 触 权 值 ， 该 FIR BRAWLS 
元 工 的 输出 到 神经 元 7 SEHR, Foe i Moa p, Pp E FIR 的 阶 。 依 据 这 个 模型 ， 出 现 
在 第 j 个 神经 元 的 第 i 个 突 触 输出 的 信号 5s,(n) 由 考 积 和 


s,(n) = D Dala = 1) (13.19) 


给 出 ， 共 中 n 表示 离散 时 间 。 RAAT LE EA ， 分 别 引 和 人 和 下列 状态 辐 量 和 权利 向 量 的 定 
党 ， 以 征 阵 的 形式 重 写 式 113 .19) 如 下 : 


x(n) = laina) ia -l)en lan- p] (13.30) 
w, = [w,(0),w,(l).. ws Cp)" (13.21) 

这 样 我 们 可 以 把 标量 信号 %(z) 作 为 向 明 w,(n) 和 x(n) 的 内 积 ， 上 
sin) = wix;(n) (13.22) 


TAHE x (n), £=1,2,0°, m, 0013.22) 2B 13-14 模型 中 的 神经 元 i 的 第 i 个 突 
HEASSE EIN s, (n)。 向 量 x(n) 被 称 为 -一 种 “状态 ”"， 央 为 它 表 示 在 时 刻 n 第; Ph RGM 
人 忻 。 因 此 ， 对 这 个 模型 描绘 的 m 个 连接 的 全 部 贡献 求 和 ( 妈 对 下 标 i 求 和 )， 我 们 可 以 得 到 
HET j 的 输出 y(n)， 表 未 为 


My 
uin) = G (n = 之 可 x(n) +b, (13,23) 
u = ste Cn) (13,24) 


其 中 vn) 是 神经 元 j 的 诱导 局 部 域 ，b, RESP BAER. p ESC EAR HE om 
数 。 假 设 网 络 中 所 有 的 神经 元 都 采用 相同 的 此 线性 的 形式 。 注 意 如 果 权 值 向 量 w 和 状态 向 
Bx; (nr) 分 别 由 相应 的 标量 w 和 x, 代替， 并 旦 内 积 由 普通 的 乘法 运算 代替 ， 那 么 式 (13.23) 
和 式 (13.24) 中 描述 的 动态 模型 就 会 化 简 为 第 4 章 中 描述 的 普通 多 层 感 知 器 模型 。 


13.9 时 序 友 向 传播 算法 


为 了 训练 分 布 式 TLFN 网 络 ， 我 们 需要 - -个 改 鬼 学 习 算 法 ， 其 中 比较 输出 层 每 个 神经 克 
的 每 个 时 刻 的 实际 啊 应 与 相应 的 期 望 (目标 ) 啊 应 。 假 设 神经 元 j 和 位 于 输 击 层 ， 其 实际 响应 是 
《Rn)， 而 这 个 神经 元 的 期 望 响应 为 &(n}， 它 们 都 在 时 刻 ”测量 。 我 们 可 以 笔 义 该 网 络 的 
Fy RE FY 
En) = 5 ein) (13.25) 
其 中 下 标 7 仪 指 输 出 层 的 神经 元 ， 市 eh Ke 
e(n) = a(n) — y(n) (13.26) 


ww ai bbt.com TAAWAOAA 





LEA BY Got BY SS 89 BP AP RE BE 477 


~ ot „e SS — es” 亚 a a 


Ay AAT ISL T RS Ce AAR AL, 
Eaa = Dy Cn) (13.27) 


ii HRI MERE LAL at, Ob CRUE HA, Gea HERNI 
法 是 基于 最 速 下 降 方法 的 通过 。 
Ae NM TRAN oT) TRAN LT ORB w ATE, Be 


Pu = 之 oS tnt (43,28) 


AY SA BEET EE A 2 at — 2b Ab p EBA E 3G ea Hp E 
RFI YALE RER RA MA, ARAG RRR, Fe ER RE ARR 
Hito ABE. TALE TEILA Ga E RRT : 

© 状态 网 前 向 传播 与 计算 瞬时 误差 梯度 所 需 项 的 反 向 传播 之 间 失 去 对 称 意义 。 

。 传播 误 车 项 缺少 -一 个 好 的 递归 公式 ， 

”十 要 全 局 纪 东 以 限 踊 哪些 静态 权 值 ， 它 们 实际 上 在 展开 分 布 式 TLEN 获得 等 价 的 网 


络 中 是 相同 的 。 
尽管 用 瞬时 梯度 估计 是 发 展 反 向 传播 算法 的 时 间 形 式 的 明显 方法 ， 从 实用 的 观点 来 看 这 
种 方法 不 理想 。 


为 殉 服 上 述 瞬 时 梯度 方法 的 问题 ， 我 们 提 下 述 处 理 (Wan,1990,1994 }。 首先 ， 认识 到 把 
局 误 鞭 梯度 展开 成 如 式 (13.28) 所 示 的 朋 时 误差 梯 度 的 和 并 不 是 惟一 的 。 特 别 ， 可 以 考 嵌 另 
ni w: ee RNA 
an 03.29 
其 中 时 间 下 标 n er TROC alu, (nA CER Al n 由 于 神经 
Joy ABE a apo, 的 一 个 变化 而 引起 的 代价 丽 数 的 一 个 变化 。 然 而 重要 的 是 注意 

LA Jdu(n) IEn) 
ES Aw, JW, 

RA IAR n RAL, a o Ea. 

给 定式 (13,29) 的 展开 ， 我 们 现在 可 以 使 用 权 值 空间 的 梯度 下 降 的 思想 。 特别， 假设 使 
用 由 








dé Jy: 
w,(n +1) = wC) = 955 CA (13.30) 


表示 的 递归 形式 的 更 新 抽 头 - RUB Hew (r), EP nr BSD RAM, M5O(13.23) 的 定义 
看 ， 我 们 可 发 现任 何 神 经 元 j， 其 诱导 局 部 域 y(n) 对 权 值 向 量 w, Cn) 


ae = x,(n) (13.31) 
给 定 ， 其 中 x,(n) 是 应 用 于 神经 元 j RA RAE. WP, AEEA j A 
BA 

A (n) = - — (13,32) 


dv kn) 
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—— MMMM es ee es els “ne 


因此 ， 我 们 可 以 用 一 个 熟悉 的 形式 来 重 写 式 (13.30): 
w.(n +1) = wtn) + ,(n)x, Cn) (13.33) 
EAS 4 SEP AY ear Pe PRA STIR OAR EE, JARRE RE BS BB SKIE oh FARA j 位 于 
an Lo Beas BE BRS. AAA aE T AE 
情形 1 神经 元 位 于 输出 层 
对 于 输出 层 而 言 ， 我 们 有 


n 
(n) = Aoi -U > = e(njo'(n(n)) (13.34) 


其 中 e (nw) 是 神经 元 j 在 输出 处 被 测量 的 信号 误差 ， 而 g O ) 是 激活 函数 o ' ) 对 其 变量 的 导数 。 
情形 2 ”神经 元 了 是 隐藏 层 神经 元 
当 神 经 元 了 位 于 隐藏 层 时 ， 我 们 定义 Y 为 由 神经 元 7 以 前 向 方式 馈 给 其 输入 的 神经 汇集 
Fo F n a) RRR PEG SA — 我 们 可 以 写成 


9 8 Dv lk) 
i (k) dy. {n) (13,35) 


AP FRE ETE PB te k RRS n et Aiea FESA(13.35) ACAD FER r 代替 
站 使 用 式 (13,32) 中 的 定 交 ,可 以 得 到 


8,(n) = DD tay = DD a Gey He (13.36) 
其 中 y(n) 是 神经 元 j 的 输出 。 我 们 知道 偏 导数 9y,(n)/9w tn) 等 于 gg lln), 包括 位 于 集 


SALI MET j 这 一 点 亦 成 立 。 所 以 可 以 将 这 一 项 提 到 双重 求 和 式 的 外 面 ， 重 写 式 
(13.36) 4 











Sn) = 一 








ô (n) = § (40) DD 8.0) Pn) (13.37) 


RU Bil SE X WREE, vtn) 表 示 由 神经 元 BA) Sag HE tat 28 的 神经 元 > BY ie Se Jay Sp RK... AUE ， 为 
使 式 (13.19) 和 (13.23) 的 含义 适 于 目前 的 情形 ， 可 以 将 o (ORERE 


vk} = 3 Y u, (i}yn i) (13.38) 
在 式 (13.38) 中 已 经 包括 用 于 神经 元 WRT b., 相当 于 7 了 =0 时 的 项 ， 定义 为 
walh = b 和 ytn- 门 =1 对 所 有 的 1 和 nn (13.39) 


指标 p 定义 式 (13.38) 内 部 和 的 上 限 ， 它 是 神经 元 r， 以 及 当前 讨论 的 层 中 的 所 有 其 他 神经 
元 的 每 个 突 触 滤波 器 的 阶 。 指 标 my 定义 在 式 (13.38) 中 外 部 和 的 上 限 ， 是 属于 神经 元 r 的 所 
AER RNA DIR 上 的 卷 积 和 是 可 交换 的 。 我 们 可 重 写 式 (13.38) 为 等 价 的 形式 





"o p 
ulk) = 2 Dy Dula - 0) (13.40) 
EAX y, 进行 求 导 ， 得 到 
dokk) wk — 71), make nt p 
re | 此 他 (13.41) 


按照 式 (13.41)， 式 (13.37) 中 的 偏 导数 3v, (kaylan), 对 于 nn 在 范围 4<hen+p 之 外 的 
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什 ， 其 值 是 0。 对 隐藏 层 中 的 神经 元 了 来 说 ， 在 式 (13.37) 中 使用 式 (13.417》， 得 刘 
ta) = piv (nn)) 5y O.Ck)w, k- I) = o (a (n)) ‘> 9 D, Cn + tw, (a) 


roak = aA red! = 0 
(13.42) 
定 习 一 个 新 的 4p+1)xLI 维 向 量 
A (n) = [8 (n), 8 (n + 1), Se+p)]7 (13.43) 
FER eR TE X R3. 21 PRAE w,。 EE Ae So Et 13.42) SSR 
dn) = ¢(2,(n)) 2 AT(n}w, (13.44) 
r& 


FY A (njw EE A, (aA w AR, SRE (p+ 1) 维 的 。 式 (13.44) 完 成 在 隐 
pet be PIT PASTE j AY a Cn RATE, 

我 们 现在 可 以 总 结 权 值 更 新 方程 为 下 述 at Ay AL 19] 4% 48 (temporal back propagation ) X 条 
( Wan, 1990, 1994). 


wiin +1) = w,(n) + 18,(n)x,(n) (13.45) 
einig (vln)), 站 为 输出 层 
= |g (wv(n)) D Aaw j ARRE hi 
re of 


EAE AE BY BRS oc, Se BD A tL Se ESE Re A HE IRE EES 
法 的 向 量 推广 。 如 果 我 们 用 输入 向 量 x(n). ACA w 以 及 局 部 梯度 向 量 A 的 标量 形式 
来 取代 它们 ， 那 就 变 成 了 如 第 4 章 导 出 的 标准 反 向 传播 算法 。 

为 了 计算 位 于 隐藏 层 的 神经 元 j AJ an), 根据 式 (13.44)， 我 们 通过 那些 兴奋 是 从 神经 
元 了 导出 的 突 触 滤波 器 从 后 一 层 反 向 传播 各 个 8。 这 个 反 向 传播 机 制 如 图 13-17 所 示 。 局 部 
PRES 3 na) 不 是 简单 的 由 加 权 和 得 来 ， 而 是 通过 各 主 罕 触 反 向 滤波 形成 的 。 特 别 地 ， 对 新 的 
短信 集 合 和 期 望 啊 应 向 量 ， 前 向 滤波 器 递增 - :个 时 间 步 ， 反 向 滤波 器 也 一 样 。 


At) 
各 
S EREA 
a 之 村 的 神经 


p (vn) 


Jù T 


A (n) 


13-17 通过 分 布 式 TLEN 的 局 部 梯度 的 反 向 传播 
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FCAT TFA EE Ae A A ATF EA fe A BY EE pT AE 
1. AAAS AT e E RE fe) Fe ae BD ER PE, AR EP op a 


处 理 是 可 以 维持 的 。 
2. RETIE- HI ARIE AA HE E S RAH iR ERR G E T A R Eje TA E 
ETR.: 


TE HESS 13.45) Fst (13.46) RRI Fe BT See Se EO h, T SS sh Ee BR AY (Be FA 
有 的 梯度 计算 者 是 回 定 的 。 ZEKE el eH eh OR EA. H, ESRB 
加 传播 算法 和 使 用 瞬时 梯度 方法 所 得 的 时 序 形式 之 间 将 产生 性 能 上 的 若 异 。 然 而 ， 这 些 差 异 
只 正 一 个 次 要 的 属性 。 对 一 个 较 小 的 学 局 率 参数 0， 这 两 种 算法 中 的 学 习 特 征 的 差异 在 实际 
应 用 中 是 可 以 各 上 略 的 。 


AR TEL BR 


MORER ADT RM d (ERM, AERA S Aw ORTH 
的 知识 。 为 了 使 这 个 计算 为 因果 性 的 ， 首 先 注意 用 于 适应 调整 的 精确 时 间 参 照 是 无 关 紧 要 
的 。 并 且 ， 网 络 中 使 用 的 突 触 结构 部 是 FIR 滤波 器 。 因 此 ， 因 果 性 要 求 使 用 附加 的 缓冲 来 暂 
存 网 络 的 内 部 状态 。 这 样 接 下 来 我 们 要 求 所 有 权 值 的 改变 都 基于 误差 信号 的 当前 值 和 过 去 
值 。 由 此 可 以 立即 设置 输出 层 神经 元 j 的 误差 为 8 (an) ， 接 着 改变 那 一 层 的 突击 滤波 器 权 值 。 
对 前 一 层 ( 即 从 输出 层 反 向 的 一 个 隐藏 情 )， 因 果 性 约束 瞳 示 这 一 层 神经 元 j 的 局 部 梯度 


Bn-p)= ¢'(u(n- p)) DA ln- p)w, (13.47) 

rEg 

的 计算 仅仅 依赖 于 向 量 A, 的 当前 值 和 过 去 值 ; 那 就 是 ， 
A (n= p) = [8,(n — p}, Â (a+ l- p) e, (n)! (13.48) 


式 (13.47) 是 由 式 (13.46) 从 第 二 行 中 将 n 用 nn -pb REBAH, EH p BR BR FR 滤波 
arty Bt. RUA BUTE BARE, TRAN x, Cn -pp) 必 须 存储 起 来 使 得 我 们 可 以 计算 5 (np)x 
一 DD) 的 积 ， 这 是 为 了 改变 连接 最 后 一 :个 隐藏 层 的 神经 元 j 和 它 前 一 层 的 神经 元 i 的 权 值 向 
量 。 允 一 个 售 多 个 障 藏 层 的 网 络 来 说 ， 通 过 将 时 间 平 移 两 倍 那么 长 ， 可 以 对 更 前 - -iaa 
出 层 极 面 的 两 个 层 )} 继 续 这 里 描述 的 操作 。 榨 作 以 这 种 方式 继续 直到 包括 网 络 的 所 有 计算 层 。 
我 们 可 以 提出 时 序 反 向 传播 算法 的 因果 形式 ， 如 表 13-1 中 的 小 结 . 
表 13-1 有 时序 反 向 传播 算法 小 结 
1. 向 前 逐 层 传播 输入 信和 号。 确定 输出 层 神 经 元 了 的 误 益 信号 ef(n)， 这 从 期 望 啊 应 中 碱 掉 实 际 簿 出 得 到 。 问 时 记录 网 
绾 中 每 个 窦 触 的 状态 向 量 。 


2. 对 输出 屋 神 经 元 ;7 计算. 
O(n) = elnie Cn} 


Wint l? = Wiin) + nO, Cad; (a) 
FOP x; Cr) A Spi ee j AE Pe ee RS 
3. 对 隐藏 屋 中 的 神经 元 j， 计 算 
Gin — ip) = ginkla — iph) 3 A Cn mw 
rÉ 


Win + l} = wia) +G, in = pn kn- ip) 
ET p RET SR AE FRIERI, Pi i i PERRE. Bel, WASP RRR, b= 
Saw EMS Ra, 2=2 YR Ay, IRE HE. 
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WAM ZED Aa) Re Bie KAS. 
坚 而 百 之 ， 我 们 可 以 得 到 下 列 结论 : 
* 行 个 8 是 通过 网 络 的 各 屋 连 续 上 反 向 传播 的 ， 并 日 不 增加 延迟 。 这 种 传播 强迫 的 内 
P(E Be ee at (YE FB. 
© OA PABPE RIF, TRA CRD x, (RHE BRR GR, FFB RRS 
RA SEU. KAR, ARS i EAE MERER, MIAT dela 的 反 
E fe fh Ae its 2 HEIR AY. 
© 各 个 人 的 反 向 传播 与 状态 的 前 向 传播 保持 对 称 。 
* 和 有 瞬时 述 度 方法 一 样 ， 计 算 的 阶 对 网 络 罕 触 极 值 的 数 月 是 线性 的 ， 
分 布 式 TLFN 比 在 13.4 节 讨 论 的 集中 式 TLFN 更 复 休 。 此 外 ， 用 来 训练 分 布 趟 和 FN 的 
时 序 反 站 传播 算法 计算 量 比 适 宜 十 训练 集中 式 TLN 的 标准 反问 传播 算法 的 计算 量 更 大。 在 
了 最 后 哆 分 析 中 ， 使 用 这 两 种 方法 中 的 哪 --… 个 ， 取 诀 于 涡 要 解决 的 时 着 处 理 任务 的 环境 是 平稳 
的 还 是 非 平 稳 的 ”。 


13.10 小 结 和 讨论 


对 时 这 处 理 的 需求 出 现在 包括 以 下 方面 的 大 量 应 用 中 : 

-BEESTEN fe ER (Box, Jenkins, 1976; Haykin, 1996) , 

RMR, HRS ERR REARS HW BFE )WUR-- BREE 

(tre BEM es fa SE) PA ETE SR) ST BR IR HY OF] ( Widrow and Steams, 1985; Haykin, 
1996). 

© AAA AI HJ iE 54 ( Proakis, 1989; Haykin, 1996) . 

° 自 适 应 控制 (Narendra and Annaswamy , 1989), 

© 系统 辨识 (Ljung 1987). 

当 人 研究 的 系统 或 者 是 其 固有 的 物理 机 制 满足 线性 条 件 时 ,我们 已 经 有 一 些 很 完善 的 理论 
来 解决 这 些 问 题 ; 可 以 参考 上 面 提 到 的 书 。 然 而 ， 如 果 一 个 系统 或 者 物理 机 制 是 非 线性 的 ， 
我 们 面临 的 问题 将 更 加 困难 。 在 这 些 情况 下 ， 神 经 网 络 有 潜力 提供 行 得 通 的 解 ， 从 而 在 它们 
的 应 用 中 产生 了 很 大 的 差异 : 

在 神经 网 络 的 环 景 下 ， 我 们 对 时 序 处 理 有 两 种 选择 方案 : 

* 时 滞 前 镇 网 络 。 

° 递归 网 络 。 

下 面 两 章 将 讨论 递归 网 络 。 这 一 章 我 们 描述 两 类 时 灌 前 馈 网 络 {TLEN):， 集中 式 和 分 布 
A TLFN。 在 一 个 集中 式 TLFN 中 ， 短 期 记忆 完全 位 于 静态 网 络 的 前 端 ， 可 直接 进行 设计 。 训 
练 集中 式 TLFN， 假 定 用 多 层 感 知 器 来 实现 静态 神经 网 络 , 则 可 以 用 标准 的 反 向 传播 算法 完 
成 。 由 Sanberg and Xu{1997a,1997b) 得 到 的 通用 短视 映射 定理 ,我们 有 一 个 存在 定理 ， 通 过 
用 随 个 功能 块 ( 即 一 组 线性 滤波 器 央 和 一 个 静态 神经 网 络 ) 的 级 联 ， 提 供 台 近 任 意 短 视 映 射 
( 即 具有 一 数 八 减 记忆 的 因果 时 射 ) 的 数学 基础 。 这 和 样 一 个 结构 可 以 使 用 集中 式 TLFN 来 实 
现 ， 于 是 也 就 提供 了 这 个 定理 的 物理 实现 , 
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及 外 一 类 和 FN 是 分 布 式 TLFN， 人 依赖 于 使 用 神经 元 的 时 空 模型 ， 即 一 个 多 输入 神经 元 滤 [69] 
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波 八 。 这 个 模型 使 用 有 限 溃 击 咯 刁 (FIR) 滤 流 划 作为 突 甬 小 该 更。 这 样 ， 多 输 人 神经 儿 滤 流 
铝 光 和 借 在 单个 神经 元 周围 建立 的 时 空 信号 处 理 能 力 提 供 一 个 强 太 功能 块 ， 为 了 训练 它 ， 我 们 
可 以 使 用 第 3 St HAIR AY Be) — FE (least-mean-square, LMS) 算 法 。 然 而 ， 要 训练 一 个 分 布 式 
TLFN， 我 们 需要 一 个 复杂 的 学 习 算 法 ， 诸 如 13.9 节 中 描述 的 时 序 反 向 传播 算法 。 分 布 式 
TLFN 的 突出 特征 是 时 间 的 隐 去 故 示 分 布 于 整个 网 络 中 ， 因 此 具有 处 理 非 平稳 (即时 变 ) 环 境 
REJI WEB, EPA TLEN DS, PREM, RRA PSMA, DORE 
实际 应 用 于 平稳 (即时 间 不 变 } 环 境 ， 


注释 和 参考 文献 


[1 关于 时 间 在 神经 处 理 中 的 作用 的 短文 BL Flman(1990) 的 标题 为 “发 更 时 间 中 的 结构 ” 
有 的 经 由 论文 。 

[2] 在 Hopfield(1995) 中 描述 在 神经 处 理 中 时 间 的 显 式 表示 的 一 各 方法。 特别， 对 进行 整体 
振 功 的 活动 模式 使 用 动作 电位 的 定时 表示 模 氢 信息， 并 引用 这 方面 神经 生物 学 的 证 据 ; 
动作 电位 {action potentials) Æ% 1 章 描述 。 

[3] 关 杆 短期 记忆 结构 和 它们 在 时 序 处 理 的 作用 ， 参 看 Mower(1994)。 

4) 对 用 于 语音 识别 的 TDNN 和 HMM 的 混合 方法 的 讨论 ， 可 参看 Bourlard and Morgan 
(1994), Katagiri and McDermott (1996) 和 Bengzio( 1996) 。 
一 些 TDNN - HMM 的 混合 结合 使 用 TDNN AEA Se Os ( AD ey Oy ae ee Tr Re MY Be ” Bl] — 
“音素 个 ”和 HMM 78) /) OR eS ee (BR EEE So“ RAA, Ab ees 
ar Ste SEA TE E ERRAI TONN - HMM 混合 中 使 用 整个 系统 的 
十 方 误差 损失 函数 使 得 和 词 /名 的 误差 计数 相关 的 损失 能 够 被 最 小 化 。 这 后 一 种 格式 的 
例子 为 在 Haffner et al. (1991) 和 Haffner( 1994) 中 描述 的 多 状态 TDNN。 分 开设 计 模 块 的 
简单 混合 经 常 导致 设计 的 训练 性 能 和 测试 性 能 的 不 匹配 。 在 这 方面 多 状态 TONN 表现 
更 好 。 
RE RM CUBR GES 15 章 讨论 ) 比 类 似 TONN 的 “复制 ”网络 对 于 语音 信号 的 时 
友 结 构建 模具 有 更 大 的 能 力 。 但 是 ， 由 于 考虑 到 语音 信号 的 非 平 稳 性 和 非 线 性 件 ， 即 
使 是 递归 网 络 , 它们 自己 对 于 精确 的 语音 识别 也 许 并 不 是 足够 的 。 

LS] 关于 通用 短视 映射 定理 的 由 来 ， 参 看 Sandbergf 1991) 。 

6] 关于 时 序 反 向 传播 算法 的 另 一 个 图 解 推 性 ， 和 参看 Wan and Beaufavyst 1996) 。 

[7] 在 Wan(1994) 中 ， 利 用 时 序 反 向 传播 算法 对 NH, 激光 的 其 有 混沌 震动 的 非 平稳 时 间 序 
列 进行 预测 。 这 个 特殊 的 时 间 序 列 是 1992 FERE Sana Fe 研究 所 举行 的 时 间 序 殉 竞 赛 
的 一 课 分 。 对 这 个 时 序 处 理 任 务 ， 包 括 标 准 的 递 电 和 前 饶 神 经 网 络 以 及 许多 传统 的 线性 
技术 在 内 的 各 种 各 样 的 解 中 ，Wan 的 解 启 得 了 竞赛 (Wan,1994)。 沦 沌 在 第 14 章 讨论 。 


习题 
和 集中 式 时 沾 前 馈 网 络 [TLFN) 
13.1 SPEARS SESE CE STAs OR A Se TLEN 的 主要 特性 进行 概括 。 


13.2 在 图 13-10 中 描绘 的 集中 式 TLFN 司 用 抽 头 延迟 线 记 忆 来 实现 短期 记忆 。 和 那么 在 
集中 式 TLEN 中 使 用 Gamma 记忆 来 实现 短期 记忆 的 优 和 缺点 是 什么 ? 


ww ai bbt.com TAAWAOAA 











LE HF BY BG PY BG OF AP RE BE 483 

13.3 在 第 2 章 中 ， 我 们 和 定性 地 摘 述 实现 非 线性 自 适应 滤波 的 动 访 方 法 。 这 个 方法 畦 帮 
到 一 种 静态 神经 网 络 ， 其 制 激 中 通过 应 用 滑动 窗口 来 局 给 输 和 人 数据 。 这 个 窗 与 征 着 每 个 新 的 
数据 慎 本 的 到 来 而 发 生 移动 ， 窗 口中 的 旧 样 本 滑 出 ， 给 新 的 数据 样 杰 以 空间 。 试 讨论 一 个 集 
PHE TLFN 刘 何 实现 这 种 连续 学 习 的 形式 。 
神经 元 的 时 宝 模 型 

13.4 考虑 一 个 神经 元 请 流 般 ， 其 诱导 局 部 域 a(1) 由 式 (13.16) 定 义 。 假 设 这 个 等 式 的 
By Pl Ba h (DAPRE h) =U- RRE, Et r BSE MER. JRA 
修改 对 神经 元 滤波 器 带 来 的 变化 . 

[3.5 使 用 LMS 算法 ， 对 图 13-9 中 的 多 输 人 神经 元 滤波 器 给 出 学 习 算法 的 公式 。 
有 时序 反 向 传播 

13.6 图 13-18 描述 用 高 斯 形式 的 时 间 窗 口 作为 时 序 处 理 的 方法 {Bodenhausen and 
Waibel, 1991), JPET 7 WRA HR ARAN APO, TON n,o), HEF r A oral 
Ze 7s AY BEA LAE, RRAN 

] 2 

Fag rl > w" 一 Ta) | 


d 


O(n, Ty 5) = 


tH 266 了 的 输出 模型 为 
My 


y(n) = of Dy wt. (n) 


其 中 Cn RHA x (na) AY (EY ef 1 O(n. ty yo ) 的 卷 积 。 属于 神经 元 j 的 突 触 i 的 权 值 w; 和 


输入 
x(n} 
移动 这 个 窗 

输入 HEA 
x(n) [| (E> yin 
aA. 
xn 放大 这 个 窗口 

i hn 


一 一 一 tha 
图 13-18 

这 个 学 当 可 以 通过 标准 的 反问 传播 算法 来 实现 。 试 通过 推导 ww ,ra 的 更 新 公式 演示 这 
个 学 习 过 程 ， 

13.7 存 13.9 症 提供 基于 时 序 反 癌 传 播 算法 的 材料 中 处 理 等 长 的 帘 触 FIR 滤波 上 器。 你 
如 何 处 更 不 笑 长 的 突 触 FIR 滤波 器 ? 

13.8 讨论 时 序 反 向 传播 算法 如 何在 单 步 预测 的 分 布 式 TLEN 的 训练 中 使 用 。 

13.9 约束 的 { 轩 果 的 ) 和 无 约束 的 ( 非 因 果 的 ) 时 序 反 向 传播 算法 形式 上 的 差异 类 似 于 标 
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准 的 最 小 二 乘 (TMS) 算 法 和 延迟 LMS 算法 的 差异 ; LMS 算法 在 第 3 章 讨论 .扩充 这 个 类 比 。 
计算 机 实验 

13.10 在 这 个 题目 里 我 们 用 标准 罗 BP 得 法 及 解决 力 难 的 非 线 性 预测 问题 ， 比 较 它 与 
IMS 算 芒 的 性 能 。 时 间 序 列 由 商 散 Volterra 模型 建立 ， 其 形式 为 

a(n) = > goln 一 i) + > PT = 
其 中 ge 是 Volterra RM. on) ALTRI Gauss Ai GERS JYAP. vln) Æ Volterra 
模型 的 和 输出。 第 一 个 求 和 项 是 我 们 熟悉 的 滑动 平均 (MA 时间 序列 模型 ， 剩 余 的 求 和 项 是 更 
癌 险 的 非 线性 的 部 分 。 一 般 地 ， 对 Voltera 系数 的 帖 计 通 销 认 为 是 困难 的 ， 主 要 是 因为 它们 
和 数据 的 非 线性 关系 。 

ERTI, BEHEE TARRAT 
sin) = vn) + 83yin - l)oln — 2) 

TTP FE FRSA, AAKA, MOA AARS SRI, A ARSE 
HHA PA PLA EE og moh + Pot A, Hite BAM HAS. 

(a) 移 造 一 个 多 层 感知 絮 ， 有 6 个 输入 节点 ， 隐 藏 层 含 有 16 个 神经 元 ， 只 有 一 个 输出 神 
经 元 。 使 用 抽 头 延 时 线 记 忆 人 局 给 网络 的 输 和 人 层 。、 隆 藏 层 神经 元 使 用 sigmoid 激活 函数 ， 限 制 
企 区 问 :0,1j 区 间 内 ， 而 输 册 神经 元 充当 一 个 线性 的 组 合 跨 。 网 络 使 用 标准 反 疝 传播 算法 进 
tru, ARBRE: 


BS Fe A a=0.6 


处 理 的 样本 总 数 100 000 
每 个 回合 的 样本 数目 1000 
总 的 回合 数 日 2 500 
日 噪声 方差 wm 为 1。 因此 ， 用 8=0,5， 我 们 求 出 预测 器 的 输出 方差 为 = 1.25, 
计算 非 线性 预测 郁 的 学 悦 曲 线 ， 将 预测 器 输出 x(n) 的 方差 绘制 成 训练 样本 的 回合 数 的 
RST, — EZ 2 500 个 回合 。 鸭 了 淮 备 进行 训 绒 的 每 个 回合 ， 探 讨 下 赂 两 种 片 式 : 
到 维持 吕 练 样本 的 时 序 ， 从 一 个 回合 到 下 一 个 回合 与 它 产 生 的 时 序 一 样 ， 
(训练 样 事 的 顺序 从 一 个 状态 (模式 ) 到 另 一 个 状态 是 随机 产生 的 。 
同时 ， 对 1 OOO 个 梓 本 的 确认 集 使 用 交 丸 确认 (在 第 4 章 中 描述 )， 怖 测 预 测 器 的 学 习 行 
为 。 
Cb) 重复 试验 ， 使 用 LMS 算法 对 6 个 样本 的 输入 执行 线性 预测 。 算 法 的 学 习 率 参数 设置 
为 n=10。 
(0) 重 复 整个 实验 ， 用 B=1， of =2; PRBS, 用 8B8=2, & =5. 
每 个 实验 的 结果 应 该 揭示 反 向 传播 算法 和 LMS 算法 最 初 基本 遵循 相似 的 途径 ， 然 而 反 
种 传播 算法 继续 改进 ， 最 终 产 生 -… 个 接近 预定 位 的 预测 方差 。 
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B45 神经 动力 学 


14.1 简介 


在 前 一 章 关 于 时 间 处 理 中 ， 我 们 研究 了 短 时 记忆 结构 和 由 记忆 结构 刺 泗 评 仿 神经 网 络 
如 多 层 感 知 栅 )， 以 及 如 何 将 它 作 为 动态 映 吊 莫 运 行 。 田 一 个 可 用 于 把 时 辕 以 障 窜 的 方式 菇 
人 神经 网 络 的 运行 之 中 的 重要 途径 是 通过 使 用 反馈 ， 把 反馈 应 用 于 神经 网 络 有 两 种 基本 途 
径 : 网络 中 单一 神经 元 层次 上 的 局 部 反馈 ， 和 包 售 整个 网 络 的 全 局 反锁。 局 部 反 鱼 处 理 起 来 
是 相对 简单 的 ,但 全 局 及 馈 有 更深 的 含义 。 在 关于 神经 网 络 的 文献 中 ， 囊 有 一 个 或 者 出 多 反 
馈 问 路 的 神经 网 络 被 称 为 递归 网 络 。 在 本 章 和 下 ~ 草 中 ,我们 将 注意 力 集中 在 使 用 全 局 扩 人 局 
的 递归 网 络 。 

Rime Ree), AAW RA REIS SHEE. ARAM ee fF 
3), Be tot i Fe TAER LEE ASE REIN. FER SE, FRI ERR TT 
递归 网 络 的 稳定 性 。 递归 网 络 其 他 方面 的 问题 我 们 将 在 下 一 章 中 考虑 ， 

被 视 为 非 线 性 动力 系统 并 特别 强调 稳定 性 问题 的 神经 网 络 的 主题 被 称 为 神经 动力 学 
(neurodynamics)( Hirsch, 1989)。 非 线性 动力 系统 的 稳定 性 (或 不 稳定 性 ) 的 一 个 重要 特征 就 硅 
于 它 是 整个 系统 的 特性 。 作 为 一 个 推论 ， 稳 定性 的 存在 总 是 意味 着 在 系统 的 各 个 独立 部 分 之 
间 某 种 形式 的 协调 {Ashby,1960)。 似乎 对 神经 动力 学 的 研究 开始 于 1938 年 Nicholas Rashevsky 
的 工作 之 中 ， 那 时 将 动力 学 应 用 于 生物 学 领域 第 一 次 浮现 在 他 充满 幻想 的 头脑 中 。 

非 线性 动态 系统 的 稳定 性 是 一 个 处 理 起 来 很 杯 手 的 问题 。 当 谈 到 稳定 性 问题 的 时 候 ， 拥 
有 工程 背景 的 人 经 常会 想到 有 界 输入 和 有 界 输 出 (BIBO) 的 稳定 性 准则 。 依 照 这 一 准则 上 ， 稳 
定性 意味 着 如 果 有 界 的 输入 和 初 妈 条 件 或 没有 不 必要 干扰 ， 那 么 系统 的 输出 就 必定 不 会 无 界 
地 增长 {Brogan,1985)。BIBO 稳定 性 准则 非常 适合 于 线性 动态 系统 。 但 是 ， 由 于 藤 人 神经 元 
结构 之 中 的 饱和 非 线性 使 得 所 有 的 这 翌 一 些 非 线性 动态 系统 都 是 BIBO 稳定 的 ， 所 以 把 BIBO 
稳定 性 准则 应 用 到 神经 网 络 上 古 无 用 的 。 

当 在 非 线 性 动态 系统 背景 谈 到 稳定 性 时 ， 我 们 通常 都 意味 着 Lyapunov 意 头 的 稳定 性 。 在 
1892 年 一 个 值得 庆贺 的 日 子 里，Lyapunoy( 一 位 俄罗斯 数学 家 和 工程 师 ) 提 出 了 众 所 周 若 的 稳 
定性 理论 基本 概念 一 一 Lyapunov 直接 方法 。 这 一 方法 被 广泛 用 于 线性 和 非 线性 系统 中 的 稳定 
性 分 析 ， 包括 时 不 变 和 时 变 两 种 情况 。 因 此 ， 它 可 以 直接 用 于 神经 网 络 中 的 稳定 性 分 析 。 事 
ZE, BA PEDAL MRE NB Lyapunov 直接 方法 。 人 但是， 它 的 应 用 不 是 一 个 轻松 的 
任务 。 

对 神经 动力 学 的 研究 可 能 会 遵从 两 种 途 往 之 一 ， 这 取 痰 于 和 实际 的 应 用 ; 

。 确定 性 神经 动力 学 ， 此 时 神经 网 络 模 型 认 有 确定 的 行为 。 数 池上 用 一 组 非 线 性 微分 
方程 来 描述 微分 方程 定义 作为 时 间 函 数 的 模型 的 精确 进化 (Grossberg, 1967; Cohen 
and Grossberg , 1983; Hopfield, 1984) 。 

。 统计 性 神经 动力 学 : WNRAMB SERN. EMT, RESA 
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{4 7S Ab SE RE Lak ete tp A feu, A I A Res AF Amari et al. , 1972; Peretto, 
1984: Amari, 1990)。 随 机 性 和 非 线 性 的 组 合 使 得 这 个 主题 将 磋 第 难于 处 埋 ， 
在 本 章 中 ， 我 们 移 自 己 限 制 在 确定 性 神经 动力 学 之 内 。 


本 章 的 组 织 


本 章 中 的 材料 分 成 三 个 部 分 。 在 由 14.2 PA 14.6 节 组 成 本 草 的 第 一 部 分 ， 我 们 提供 介 
绍 性 的 材料 。14.2 节 介 绍 一 些 动 态 系 统 中 的 基本 概念 ， 随 后 在 14.3 节 中 讨论 的 平衡 点 稳定 
性 。14.4 节 中 描绘 在 动态 系统 研究 中 浮现 出 的 各 种 类 型 的 吸引 了 于。 在 14.5 节 再 次 讨论 曾 
经 在 第 13 章 中 导出 的 神经 元 的 加 性 模型 . 在 14.6 节 寺 论 作为 神经 网 络 范例 的 绒 引 子 的 运 
fE 

本 章 第 二 部 分 由 14.7 WB 14.11 和 组 成 ， 处 理 联 起 记忆 。14.7 PR AFA 
Hopfield 模型 利 作为 按 内 容 导 址 记忆 使 用 的 离散 Hopfield 模型 的 细节 问题 ,在 14.8 节 提 出 
Hopfield 网 络 这 种 应 用 上 的 计算 机 实验 。14.9 节 中 对 于 包含 Hopfield 网 络 和 其 他 联想 记忆 的 
非 线性 动 仿 系 统 作 为 其 特例 的 非 线 性 系统 ， 给 出 它们 的 Cohen-Grossberp 定理 。 在 14.10 $E 
摘 述 力 一 个 被 称 为 盒 中 脑 状 态 神 型 的 神经 动力 学 模型 ， 沪 模型 非常 适用 于 此 类 。14.11 节 提 
出 对 这 个 第 二 种 模型 上 的 计算 机 实验 。 

最 后 部 分 由 14.12 TEJ 14.14 节 组 成 ， 处 理 混 钝 的 论题 。14.12 节 讨 论 混沌 过 程 的 不 变 
EHE, ERE 14.13 节 讨 论 瀑 沌 过 程 动力 学 重建 这 一 紧密 相关 题目， 动力 学 重建 的 计算 机 实 
验 在 14.14 节 中 给 出 。 

本 章 在 14.15 节 中 用 一 些 最 后 评论 结束 本 章 。 


14.2 动态 系统 


为 了 进行 神经 动力 学 的 研究 ， 我 们 需要 用 一 个 数学 模型 描述 非 线 性 系统 的 动力 学 。 自 然 

最 适合 这 一 用 途 的 模型 就 是 状态 空间 模型 。 根 据 这 个 模型 ,我们 考虑 一 组 状态 变量 ,假设 这 

毕 变 量 的 值 (在 尾音 特定 时 刻 ) 都 包含 充分 的 信息 可 以 预测 系统 的 可 能 注 化 。 令 x Ct) xf), 

…, xw(t)， 表 示 非 线性 动态 系统 的 状态 变量 ， 其 中 连续 时 间 1 是 独立 变量 日 为 系统 的 阶 。 

为 了 简化 符号 ， 把 这 些 状 态 变 量 收 集 在 一 个 叫 敌 系统 状态 向 量 的 和 Nx 1 的 向量 xti) 里 。 那 么 
韭 绕 性 动态 系统 的 一 太 光 的 动力 学 特性 右 可 以 用 一 阶 微分 方程 组 

La = Fat), j= 1,2,,N (14.1) 


的 形式 给 出 ， 一 般 来 说 ， 其 中 的 函数 严 (- ) 是 它 的 自 变量 的 非 线性 函数 。 我 们 可 以 用 向 量 符 
号 把 这 个 方程 组 写成 紧凑 形式 


alt) = F(x(1)) (14.2) 
其 中 非 线性 函数 下 是 呵 量 值 的 ， 它 的 每 一 个 无 素 作用 于 下 述 状态 向 量 中 的 一 个 对 应 元 素 : 
x(t) 一 a (i) Rah) XE (14.3) 


QUE SA (14.2) PARE, Ale eg ee F(x(1)) 不 显 式 地 依赖 于 时 间 :， 则 这 样 的 非 线 性 动态 
系统 被 称 为 自治 的 (aulonomous); APRA AE A 7465 (nonautonomous)"'’, HIT RH BIH 
FE 
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AN PAR ER PE PRK F(… ) 的 精确 形式 是 什么 ,状态 向 量 X( 必须 随时 间 改 变 ; 否则 ，x(1) 
Dae a E RSA RESSA. AHR aT PAE SRE M— TAS ASE F : 


动态 系统 是 状态 随时 间 变 化 的 系统 。 


此 外 ， 我 们 可 以 把 didt 作为 "速度 "考虑 ， 不 是 在 物理 意 尽 上 而 是 在 抽象 音义 上 的 。 那 
A, 根据 式 (14.2)， 可 以 将 向 量 孙 数 F(x) 称 为 速度 向 量 场 或 者 简单 地 称 为 向 量 场 (vector 
field}, 


状态 空间 


将 状态 空间 方程 (14.2) 看 作 描 述 w 维 状态 空间 中 一 个 点 的 运动 是 有 益 的 。 状 态 空 间 吕 
能 未 欧 几 里 健 室 间或 者 是 它 的 一 个 子 集 。 也 可 能 是 非 欧 氏 空间 ， 就 像 圆 、 球 、 环 或 者 其 他 一 
些微 分流 形 。 但 是 ， 我 们 的 兴趣 只 限于 欧 氏 空间 。 

状态 空间 很 重要 ， 因 为 它 给 我 们 提供 可 视 的 /概念 化 的 工具 用 来 分 析 由 式 (14.2) 揪 述 的 
非 线性 系统 的 动力 学 。 它 是 通过 拒 我 们 的 注意 力 集 中 于 运动 的 全 局 特性 而 不 是 方程 的 解析 解 
或 数值 解 的 细节 方面 来 实现 的 。 xy 

企 一 特定 时 刻 :， 用 N 维 状态 空间 中 
的 一 个 点 表示 系统 被 观察 状态 ( 即 状态 向 
Wx) 用 状态 空间 中 的 一 条 曲线 表示 
系统 状态 随时 间 ¢ 的 变化 ， 曲 线 上 的 每 一 
点 都 ( 显 式 地 或 隐 含 地 ) 带 有 记录 观察 时 间 
的 标志 。 这 条 厚 线 叫做 系统 的 执 线 或 康 
ih, FA 14-1 摘 绽 一 个 二 维系 统 的 轨 线 。 轨 
线 的 肯 时 速度 ( 即 速度 向 量 dxi dan) HA 
向 量 表 示 ， 如 图 14-1 中 1 = 1 时刻 用 虚线 
的 表示 。 因 此 我 们 可 以 得 出 轨 线 上 每 一 点 
的 速度 向 量 ， 

由 不 网 万 始 条 件 产 生 的 不 同 轨 线 的 集 
合 称 为 系统 的 状态 相 图 {state portrait). {R 
仿 相 图 包含 状态 空间 中 所 有 那些 定义 向 量 图 14_1 一 维 动态 系统 的 圾 线 (轨道 ) 
场 F(x) 的 点 。 注 意 对 于 自治 系统 来 说 ， 等 
种 初始 状态 将 只 有 一 条 轨 线 穿 过 。 从 状态 相 图 产生 的 -~ 个 有 用 概念 是 动态 系统 的 流 low), 
征 定 尺 为 状态 空间 在 系统 内 部 的 运动 。 换 句 话 岗 ， 可 以 想像 一 下 状态 空间 在 自身 内 部 流动 ， 
就 像 一 种 流体 ， 每 一 个 点 (状态 ) 沿 着 一 条 特定 轨 线 的 流动 (Abraham and Shaw, 1992), RE 
挡 述 的 流 的 思想 在 图 14-2 的 状态 相 图 中 有 生动 的 说 明 ， 

给 定 一 个 动态 系统 的 状态 相 图 ， 吕 以 构造 一 个 对 应 于 状态 空间 中 每 一 个 点 的 速度 {切线 ) 
癌 量 场 。 这 样 得 到 的 图 也 提供 系统 中 向 量 场 的 找 绘 。 图 14-3 中 显示 许多 速度 向 量 ， 展 现 完 
全 的 场 看 起 来 像 什 么 样子 。 向 量 场 的 用 处 在 于 事实 上 它 通 过 在 状态 空间 中 每 一 个 特定 点 以 惯 
性 诬 度 移动 ， 给 我 们 提出 一 种 对 动态 系统 固有 运动 倾向 的 可 视 描述 。 
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图 14-2 二 维 动态 系统 的 状态 !{ 相 位 ) 图 图 14-3 二 维 动力 系统 向 其 场 


Lipschitz 条 件 


为 了 状态 空 问 方程 (14.2) 有 解 吕 是 惟一 和 解 ， 必 须 在 向 量 函 数 F(x) 上 施加 --- 定 的 限制 。 
ATH, RNCASH SRAM ES x 对 时 间 ¢ 的 依赖 ， 而 这 是 我 们 一 次 又 一 次 苯 从 的 
任 例 。 存 在 解 的 元 分 条 件 为 必 呈 对 它 的 所 有 目 变 量 是 连续 图 数 。 然 而 ， 它 这 一 限制 本 身 不 
足以 名 证 解 的 惟一 性 。 为 了 做 到 这 一 点 ， 我 们 必须 施加 被 称 为 Lipschitz 条 件 的 额外 限制 。 令 
|x | 表示 向 量 x 的 范 数 或 者 欧 几 里 德 长 度 。 令 x 和 器 作 为 赋 范 问 量 (状态 ) 空 间 上 某 一 开 集 
村 上 的 一 个 向 量 对 。 然 后 ， 根 据 Lipschitz RIF, FAP RE 下 使 得 下 式 对 机 中 所 有 的 x 和 
u Api AF (Hirsch and Smale, 1974; E. A. Jackson, 1989 ): 
| F(x) - Fu) < Kilx-al (14.4) 
a A (14.4) AY In) ee ea Ftx) 被 称 为 满足 Lipschitz PE, K OG F(x) 的 Lipschitz 4k. 
式 (14.4) 也 意味 者 明 数 了 CS 关于 X 的 连续 人 性 。 因 此， 对 自治 系统 来 说 ，Lipschitz 条 件 是 状态 
空间 方 称 ( 到 .2 存在 且 只 存在 惟 … 解 的 苑 分 条 件 。 特 别 地 ， 如 果 所 有 侦 导 数 D F fe x, 处 处 有 
PR, MAR F(x) iE Lipschitz 条 件 。 


散 度 定理 


闭 虑 日 治 系统 状态 空间 中 某 个 体积 FF A SS 的 区 域 ， 并 且 设 想 由 区 域 的 点 组 成 的 
“ 流 ”"。 从 以 前 的 讨论 ， 我 们 认识 到 速度 向 量 dyd 和 向 量 场 Ftx} 是 相等 的 ， 俏 基体 积 A 
的 回 量 场 F(x) 是 相当 光滑 ， 则 可 以 从 问 量 微 积 分 学 的 角度 应 用 疝 度 定理 (jackson,1975 )。 令 
n 表示 曲面 $ 上 茶 小 块 dS AMES RS Rive ide. Rio. 根据 散 度 定理 ， 关 
系 式 


| (RGD ,mas = | (V Fay (14.5) 
在 F(x) 散 度 的 体积 分 和 (x) 向 外 法 线 分 量 的 曲面 积分 之 间 成 立 。 式 (14.5) 左 端的 值 被 认为 
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是 从 曲 向 $ 所 了 包 国 的 区 束 中 流 辐 外 部 的 净 流 董 。 旭 果 该 值 为 零 ， 则 说 系统 是 保守 的 
(conservative) ; 条 为 信 ， 则 说 系统 是 耗 散 的 Ldissipative)。 根 据 式 (14.5)}， 同 样 可 以 说 ， 如 果 
AUS V :F(x)( -个 标量 ) 为 零 则 系统 是 保守 的 ， 若 为 信 则 系统 赴 耗 散 的 。 


14.3 平衡 状态 的 稳定 性 


考虑 由 状态 空间 方程 (14.2) 描 述 的 白 治 动 态 系 统 。 一 个 常 向 量 E 称 为 系统 的 平衡 {和 狗 
IRA, WHE 
Fix) = 0 (14.6) 
xe, HP OAS he, GRE dyd TY BOK x ANBAR, AURA xl) = 
A714. 2) BYR Hesh, HEE tE, MA EA eR RE EE RAS x, 平衡 状 
AE AT HR. HTP RIP. PARA Rhee Pa. 
AY T MRA FERIR, BIRITERA Fx) SEPARA 3 A AE (14.2) Ke A 
SG, (EEE x SBT LAE ERE KRAE. 特别 ， 今 
xCi) = x +4 Axi) (14.7) 
其 中 的 Ax t) x 的 微小 偏差 。 然 后 ， 保 和 留 下 (xy) 的 Taylor 级 数 展 开 中 的 前 两 款 ， 将 其 近似 
为 


F(x) ~ X + AAx(!) (14.8) 
矩阵 A 是 非 线 性 方程 F(x) AY Jacobi 和 矩阵， 在 x= 吉 点 处 计 值 ， 表 示 为 
A = Z Elx) pe (14.9) 
将 式 (14. 刀 和 式 (14.8) 代 人 式 (14.2)， 然 后 使 用 平衡 状态 的 定义 ， 我 们 得 到 
£ Axla) ~ AAXx(z) (14.10) 


F Jacobi RIF A FASE Ay RAS, BP tee A TTIE, TECA. 10 IAEA MEE UE RR 
ERE FARA & 邻 城 的 局 部 性 质 。 旭 果 A 是 非 奇 异 的 ， 则 平衡 状态 的 性 质 主要 取决 于 下 
的 特征 值 ， 因 此 可 岂 根 据 它 的 相应 方式 进行 分 类 。 特 别 ， 妆 Jacobi 矩阵 A 的 特征 值 有 om T 
性 有 让 实数 部 分 ， FRAT AY PAGE BRAS x J XP (type) mn, 

对 于 二 阶 系 统 这 种 特殊 情况 而 言 ， 平 衡 状态 的 分 类 可 归结 为 表 14-1 所 列 情况 ， 相 应 相 
图 表示 在 图 14-4 中 (Cook,1986;Amowsmith and Place, 1990)。 不 失 一 般 性 ， 想 设 平 衡 状态 位 于 
状态 空间 的 原点 ， 也 就 是 x=0 的 地 方 。 注 意 对 于 图 14-4e 中 的 鞍点 ， 通 向 鞍点 的 轨 线 是 稳 
定 的 ， 而 从 鞍点 离开 的 轨 线 则 是 不 稳定 的 。 


表 14-1 二 阶 系统 平衡 状态 的 分 类 


SF RES x 的 类 型 Jacobi HPF A 的 特征 值 
稳定 结 点 es. 

稳定 个 点 Se By th WY SESE 
不 稳定 结 点 正 实数 

KEES FERR AE RIGHE Be 
鞍点 不 同 号 的 实数 

EL Str bl aie 
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图 14-4 
ce 不 稳定 结 点 ” 山 不 稳定 焦点 ee) Bal 1 Fab 
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稳定 性 定义 


鲍 像 已 经 简略 入 述 过 的 那样 ， 状 态 空间 方程 的 线性 化 可 以 提供 关于 -个 平衡 状态 的 局 部 
稳定 特性 的 有 用 信息 。 但 是 ,为 了 能 蕊 一 种 掉 加 细节 化 的 方式 研究 非 线 性 动态 系统 的 稳定 
性 ， 我 们 需 册 关于 平衡 状态 的 稳定 性 和 收 剑 性 的 精确 定 羡 。 

在 和 市 有 平衡 状态 Xx 的 日 治 非 线 必 动态 系统 相关 的 环境 中 ， 稳 定性 和 收敛 性 的 定义 如 下 
{ Cook, [986 ) ， 

EXI 在 对 于 尾 意 给 定 的 正 数 gs， 存在 一 焉 数 8$， 使 得 当 满 足 条 件 | xf0) —x || <a fH, 
对 于 所 有 t >0 恒 有 | x(1) -和 | <e， 则 称 平衡 状态 为 一 致 稳定 的 。 

这 一 定义 表明 如 果 初 始 状 态 x(0) 很 接近 ， 则 系统 的 一 条 轨 线 可 能 会 停留 在 平衡 状态 玉 
很 小 的 一 个 邻 域内 。 

EX2 如 玉 行 在 一 个 正 数 8 和 使 得 当 条 件 | x(0) -二 上 | <8 BT, BF te oA xl) ox, M 
称 平衡 状态 为 收 就 的 。 

第 二 个 定义 的 含义 在 于 如 果 一 -条 轨 线 的 初始 状态 x(0) 足 够 接近 于 平衡 状态 半 ， 则 在 时 间 
t 接近 无 穷 的 时 候 由 状态 疝 量 x) ATTA SLR RAF x, 

是 3 厂 平 衡 状态 是 稳定 的 并 和 且 是 收 合 的 ， 则 称 平衡 状态 x 为 渐 近 稳定 的 ，。 

这 里 我 们 要 注意 稳定 性 和 和 收敛 性 是 互相 独立 的 性 质 。 只 有 两 者 郁 具 备 才 有 渐 近 稳定 性 。 

定义 4 如果 平衡 状态 是 稳定 的 并 且 所 有 的 系统 轨 线 在 时 间 上 接近 无 穷 的 时 候 都 收 伍 于 
X, APREIS x 为 渐 近 稳定 的 或 者 全 局 渐 近 稳定 的 ， 

这 一 定义 香味 着 系统 不 可 能 有 其 他 的 平衡 状态 ， 而 且 它 要 求 系统 中 的 每 一 条 轨 线 对 所 有 
的 时 间 1 > 0 部 保 持 有 界 。 换 和 句 话 说 ， 全 局 渐 近 稳定 性 意味 关 对 于 任意 初始 条 件 系统 都 将 最 
终 稳 定 在 一 个 稳 态 上 。 

例 14.1 令 由 式 (14.2) 表 未 的 非 线 性 动态 系统 的 解 n(1) 就 像 图 14-5 中 说 明 的 那样 随时 
Fit. S01 14-5 PTR. A TRE u(t) 嘎 一 致 稳定 的 ， 我 们 需要 ut:) 和 全 何其 他 解 vO TENE 
性 的 t 值 (即时 间 " 滴 答 ”) 时 保持 互相 接近 。 这 种 行为 被 称 为 两 个 解 u(t1)} 和 Y(1) 的 同步 对 应 
(isochronous correspondence) (E. A. Jackson, 1989 )， 设 解 x{i) 是 收 合 的 ,很 定 对 于 每 一 个 其 他 
的 解 v(t), #22 =0 8b | v(O) -u0 || <dCe) Bear, RR v0.) A ue) a BFK 
平衡 状态 。 a 





图 14-5 TRA ee — Be Ce) a ae as 
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Lyapunov 定理 


已 经 定义 了 动态 系统 的 稳定 性 和 凑 近 稳定 性 ， 下 一 个 要 考虑 的 问题 就 是 确定 稳定 性 。 亚 
i a DLE] AY 以 通过 实际 地 找到 系统 状 仿 空间 方程 的 所 有 可 能 解 米 尽 到 ; 但 是 这 种 方法 即使 
不 是 不 可 能 也 是 非常 困难 的 。 一 个 更 精 煞 的 方法 可 以 在 现代 稳定 性 理论 中 找到 ， 该 理论 由 
Lyapunov 创 这 具体 地， 我 们 可 以 通过 应 用 Lyapunov 直接 方法 来 研究 稳定 性 问题 ， 这 个 方法 
使 用 叫做 Lyapunov 了 呆 数 的 状态 向 量 的 连续 标 旦 网 数 。 

由 方程 (14.2) 描 述 的 具有 状态 和 癌 量 K 0 和 平衡 状态 六 的 自治 非 线 性 动态 茶 统 ， 关 于 它 的 
状态 空间 的 稳定 性 和 淅 近 稳定 性 的 Lyapunov 定理 可 以 陈述 如 下 ， 

定理 1 旭 果 在 和 的 小 分 域内 存在 -- 个 正定 函数 VY(x)， 其 对 时 间 的 导数 在 该 区 域内 基 半 
WERI, AFARS E ERER. 

定理 2 URE ARRATE PIR ae ee V(x)， 共 对 时 间 的 导数 在 该 区 域内 是 仙 
ERJ, WEER x ETa 

Wa AE A 1 BESK Bp HERA VOO BY BOF MPR AS AY & AY) Lyapunov 4 4k. 

这 两 个 定理 要 求 Lyapunov AR EIEE AR. DOERR RE ZN: FEARS SSRIS BS, W 
来 对 所 有 的 xCL, EL PSR, WERE ATER Be. 

1. PRA 所 中 对 状态 向 量 x 中 所 有 元 素 有 连续 仿 导 数 

2. V(X) =0 

3. WR xx, WY V(x) >0 

纵 出 这 样 的 Lyapunov Pa V(x), RREI, Æ AF xe Ux 


7(x) <0 对 于 XE (14.11) 
R, ARRAS x RE, Epu x SER. ES, REE? 
V(X) < 0 Fue UX (14.12) 


R, MFR E EAEN. 

IXY be HB BR EF BY MAARRE AR AR AS 28 FA) Em EEA Lyapunov 定理 。 椒 
驻 的 是 ， 定 理 并 没有 给 出 如 何 找 到 Lyapunov PAHS; 在 每 种 情况 它 是 一 件 创造 性 、 堂 
和 和 犯错 试 的 事情 。 对 于 感 兴趣 的 很 多 问题 ， 能 量 钥 数 可 以 起 到 Lyapunov 函数 的 作用 。 介 是 ， 
无 法 找到 适用 的 Lyapunov 辆 数 并 不 能 证 明 系 统 的 不 稳定 性 。 因 为 Lyapunov 函数 的 存在 是 系统 
稳定 的 充分 条 件 ， 而 不 是 必要 条 件 。 

Lyapunov 半数 VF{ 为 对 由 式 (14.2) 描 述 的 非 线 性 动态 系统 进行 全 局 稳定 性 分 析 提 供 数 
学 基础 。 男 一 方面 ， 基 于 Jacobi HM A， 使 用 式 (14.10) 为 进行 系统 局 部 稳定 性 分 析 提 供 基 
础 。 全 局 稳定 性 分 析 的 结论 比 局 部 分 析 更 有 力 ; 因为 每 个 全 局 稳定 的 系统 必定 是 局 部 稳定 
的 ， 反 之 则 不 然 。 


14.4 WIIF 


FER Hs St BE AFERI ERA EREA JE BUR IB EE. PE ETBA 
在 N 维 状 态 空间 中 的 一 个 维 曲 面 ， 它 由 方程 组 
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a — 


j= 1,2,..,k 
M(x) .%25°. ay) = 0, | cn (14.13) 


EX, AP x a, ,x BREN BERS WR, M 是 这 些 元 素 的 一 个 函数 。 这 些 流 
培 称 为 盈 引子 ”， 这 是 因为 吸引 子 为 有 界 子 集 ， 轧 始 条 件 为 非 零 状 态 空 间 体 积 的 区 域 随时 间 
增加 而 收 化 到 它们 (Ot,1993 )。 

流 形 可 以 荐 状态 空间 中 的 一 个 点 ， 这 种 情况 叫做 点 受 引 子 。 男 外 ， 它 也 可 以 是 周期 性 思 
道 ， 底 种 情况 叫做 稳定 的 极限 环 ， 稳 定 意 昧 着 附近 的 轨 线 渐 近 地 趋 近 它 。 图 14-5 描绘 这 两 
种 类 型 的 吸引 子 。 吸 引子 代表 动态 系统 中 的 惟 -- 可 以 通过 用 实验 方法 观察 到 的 平衡 状态 。 但 
是 , 诗意 在 吸引 子 的 依 况 下 ， 平衡 状态 (eduilibhmum) 既 不 意味 着 一 个 世态 平衡 (astatic 
equilibrimmy ， 也 不 意味 一 个 定常 状态 (steady state)。 例 如 ， 一 个 极限 环 代 表 --… 个 吸引 子 的 稳 
ME XA AS stable state), {AAT BAAS Ta Be AL 

在 图 14-6 H, RNERSP RIF RE ACHARKRREA, RMR RI] 
(4%) (basin( domain) of attraction}。 同 时 注意 系统 的 每 个 初始 状态 都 在 某 一 吸引 子 的 盆 中 ，。 分 
Beg AS Tie] AR | ae A FP fA op RR Cseparatnx}. 图 14-6 PHEA BAS T Ba 0 和 轨 线 
I, 的 并 表示 。 

极限 环 组 成 非 线性 系统 的 平衡 点 变 得 不 稳定 时 出 现 的 振东 行 为 的 典型 形式 。 央 此 ， 它 可 
机 极限 环 是 二 阶 系统 特殊 的 特征 。 


| Stila R 


E 


AR a" 1 - i 
ai re 5 ns sate = Q 

二 让 t hi Tap 

z i Wi | ae al 





图 146 S| ee es Fe A A ii PH E 

AR S| F 

考虑 一 个 点 吸引 子 ， 通 过 使 用 14.2 FT PSR A EER ESS EE BPRS X 
附近 线性 化 。 令 A 表示 系统 在 x= 和 处 计算 出 的 Jacobi 矩阵 ， 如 果盘 所 有 特征 值 的 绝对 值 都 
小 于 1， 册 吸引 子 是 双 曲 吸引 子 (hyperbolic attractor) (Ont, 1993 )。 例 如 ， 二 阶 双 曲 吸引 子 的 流 
可 以 为 图 14-4a 或 者 14-4b 中 所 显示 的 形式 ; PPL F Jacobi EEE A ORR eX 
部 分 。 双 曲 吸 引子 在 称 为 消除 梯度 问题 的 研究 中 受到 特别 的 关注 ， 这 种 问题 出 现在 动态 驱动 
的 递归 网 络 中 ; 这 一 问题 在 下 一 童 讨论 。 


14.5 神经 动态 模型 
对 砷 线性 动态 系统 的 性 能 有 所 了 解 之 后 ， 准 备 在 本 节 和 下 一 节 探 讨 一 下 神经 动力 学 所 包 
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ahem, REAR, THAAI RARA ARHAN. Fi] 
E EER RR TE, AOR a OS BE A oh ERE a AE, H 
Hh, De ae TAS SEH aA a RS oS IRN HAA FR 
统 。 受 关注 的 系统 其 有 四 个 普遍 特性 (Peretto and Niez, 1986; Pineda, 1988a) : 

L 大 量 自 由 度 。 人 脑 皮 层 是 高 度 并 行 的 分 布 式 系统 ， 据 估计 大 约 有 100 亿 个 神经 元 ,每 
修神 经 泡 用 一 个 或 更 多 状态 变量 搞 述 。 据 信 这 样 一 个 神经 动力 学 系统 的 计算 能 力 和 容错 能 力 
是 系统 的 集 眉 动力 学 的 结果 。 系 统 可 以 表征 为 大 量 的 由 等 个 突 触 连接 的 强度 (效能 
( efficacy) ) RNB EB BS 

2. 菲 线 性 性 。 神 经 动力 学 系统 是 非 线 性 的 。 事 实 上 ， 非 线性 是 建立 通用 计算 机 器 的 基 


Ait o 
3. RIL, WESI RSE RY. A, ER ARS ARREN YE 


RE Bit HZ XA ERA o 
4. 唆 声 。 最 后 ， 号 声 是 神经 动态 系统 内 在 特征 。 在 实际 神经 元 中 ， 膜 噪声 在 突 触 连接 


处 产生 (Katz ,19661) 。 
歇 商 的 存在 需要 对 神经 元 行为 利用 概率 处 理 ， 这 给 分 析 神 经 动力 学 系统 增加 了 另 一 层次 
士 的 复 形 性 。 对 随机 神经 动力 学 的 详细 处 理 超出 标书 的 范围 。 因 上 此， 以 后 的 材料 中 均 锅 略 哩 


声 的 影响 。 


加 性 模型 
考虑 图 14-7 中 所 最 示 的 昼 经 元 的 无 噪声 动态 模型 ， 其 数学 基础 已 在 13 章 讨论 过 了 。 使 
HARNA, RAA w, wo, o Wy Re FRR, 各 自 的 输入 x tlt), ry (OQ 
PERE, N 是 输入 数量 。 这 些 输 入 垃 用 于 有 如 下 特点 的 电流 求 和 连接 上 : 
676 * RAAH 
+ 单位 电流 增益 


« 商 输 出 阻抗 
因此 对 输入 电流 来 说 ， 它 扮演 求 和 节点 的 角色 。 图 14-7 中 非 线性 元 素 ( 激活 图 数 ) 流 向 


输入 六 点 的 总 电流 流量 为 

3 wx lt} +F, 
PRAMCA) fe, et), a (OD BEES RAE SBR) 
Was wz ;Ww 上 ， 第 二 项 是 由 于 电流 源 1 代表 额外 施加 的 偏 置 。 令 vo.(t) 表 示 非 线性 激活 
pray pt *) 输 入 仆 的 诱导 局 部 域 。 因 此 我 们 可 以 表示 从 非 线 性 元 素 的 输入 节点 流出 的 总 电流 
HA 


w(t) o d0) 
R i ë di 


ACS — Wise th TRED R. AE rE C 。 根 据 Kirehoff 电流 定律 ， 我 们 知 
道 电路 中 流向 任何 节点 的 总 电流 流量 为 零 。 通 过 应 用 Kzichoff 电流 定律 子 图 14-7 中 的 非 线性 
MAT A, Fy 
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dut) 


pa 


一 R = So upa, (4) +f (14.14) 
式 (14.14) 左 端的 电容 项 Ca Odi 是 在 神经 元 模型 上 添加 动力 学 (记忆 ) 的 最 简单 的 途径 。 


给 定 诱导 局 部 域 s(1)， 吕 以 通过 使 用 非 线性 关系 


x Ct) = ple, CEJ) (14.15) 


确定 神经 元 的 输出 。 册 式 114.14) 摘 述 的 RC IRRA PK Ake; AIBA FRSA 167 


模型 和 m HRA x, MIREIA RIF BAY Grossberg, 1982 ) 。 


x0) ha Wan 
] l 
Fe 
ait 
x0 Pa | 
VGE: 
j 
了 
Ww E Wwa, - tti 
A wyni) r wr) t; 神经 输出 
了 去 
c R 
Wy Way XD = 
Kht) : 


图 14-7 神经 元 的 加 性 模型 


由 式 (14.14) 质 述 的 加 性 模型 的 一 个 显著 特性 就 是 相 邻 神经 元 i 施加 在 神经 元 i 上 的 信号 
x Ce) FERRET el : 缕 慢 改 迹 的 。 因 此 描述 的 模型 组 成 传统 神经 动力 学 的 基础 1。 

继续 考虑 一 个 包含 N 个 互相 连接 的 神经 元 的 递归 网 络 ， 假 说 其 中 每 一 个 神经 元 都 有 由 
陈 (14.14) 和 式 (14.13) 描 述 的 同样 数学 模型 。 那 么 ， 忽 略 神 经 元 内 部 时 间 传 播 的 延 这 ， 我 们 
可 以 用 联 立 的 一 阶 微分 方程 组 


dv (i) v(t) 
Ga STIR + Uwal) GF = 120 N (14.16) 


BY AB SOE XP A E, ERAS 14. LAER Sh, HEERA. PR 
项 的 简单 再 排列 。 假 设 和 神经 元 j ARTE x, Ce) PAS ERT PR pC ) 对 它 的 诱导 局 部 域 来 说 
是 连续 和 本 微 的 画 数 。 普 所 使 用 的 激活 函数 是 logistie 函数 


I . 
plo) 一 1 + exp(— n) 一 | J (14.17) 


14.6 PE 14.11 PRA SIRE ERD BAEK 14. 15) 4014. 16) FBR 
Rs RA Ae CERI). 


相关 模型 


为 了 简化 说 明 ， 我 们 假设 式 (14.16) 中 神经 元 j 的 时 间 常 数 + = RC 对 所 有 的 /都 是 一 样 
的 。 那 么 ， 通 过 关于 这 一 时 间 常 数 的 公共 值 妇 一 化 时 间 :， 并 关于 R thw, A, WL 
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重新 网 造 式 f14.16) 的 模型 如 下 : 


dp (i 

a =— u(t) + Dye li le)? + hs = hits N (14.18) 
作用 在 输入 向 量 上 每 个 
TR TRIER 


其 中 我 们 也 并 入 了 式 (14.15)。 联 立 一 阶 非 
丝 性 徽 分 方程 组 (14.18) 的 吸引 子 结构 和 以 
下 描述 的 紧密 相关 模型 的 吸引 子 结 构 基 本 
上 相同 (Pineda，1987): 

dx ti) 


= +t 
of Dwa le)) + Ka fe gee N 


(14.19) 
RACA 18 RADE RRP, Shay HA 
ICAJ FRU BRR vy Ct) oa Cty es oy OA 
成 伏 态 问 量 。 天 一 方面 ， 在 由 式 (14.19) 描 
述 的 相关 模型 中 ， 神 经 元 的 输出 x C2), 
ay CE) xXwy(#) 构 成 状态 问 量 ， 
这 了 两 种 神经 动力 学 模型 事实 上 通过 线 
TERY A) ER. Aa, IR 
FA (14.19) BUI REL wy, St J ORAM, KR 








后 用 变换 
v(t) a wus CE) 
进行 替换 ， 得 到 一 个 由 式 {14.18}) 所 摘 述 的 py 
, +4 fEREH AED 
类 型 的 模型 ， 并 且 由 此 发 现 两 个 模型 的 偏 分量 上 的 下 线性 
置 项 由 z 
i, = D> wk RE 1) 
i b 
相关 联 。 这 旦 重要 之 处 是 注意 与 式 (14.18) | 
的 加 性 模型 的 稳定 性 相关 的 结果 也 适用 于 图 14-8 
Hak 14. 19); 相 关 的 模型 。 of ee 8 Taan ELT Ze ah AS 
这 里 描述 的 两 种 神经 动力 学 模型 之 疗 系统 框图 b 由 方程 内 (14.19) 描述 的 相关 棣 型 的 框图 
fe OF tH A A ASS) 14-8 PA ERE AA, AH a 和 bb 部 分 分 别 对 应 于 式 (14.18) 和 


(44.19) 的 矩阵 会 式 ; WER REC RE, ve ¢ 的 诱导 局 部 域 向 量 ，xt i) 是 在 寺 
il: 的 神经 元 输出 向 量 。 两 种 模型 中 反 馆 的 存在 了 疼 14-8 中 是 清晰 可 见 的 。 


14.6 FATA RY Se Bl RS] FRE 


当 神 经 元 数量 N 非常 大 的 时 候 ， 除 去 躁 声 的 影响 ， 式 (14.16) 描 述 的 神经 动 方 学 模型 具 
有 14.5 节 中 概述 的 普 让 特性 ， 大量 的 自由 度 、 非 线性 性 和 耗 散 性 。 因 而 ， 这 样 一 个 神经 动 
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力学 模型 可 能 拥有 复杂 的 虹 引 子 结 梅 并 因此 展示 出 有 用 的 计算 能 力 。 

丧 认 具有 计算 对 象 (如 联想 记忆 、 答 和 -输出 映射 器 ) 的 吸引 子 是 神经 网 络 范例 的 一 个 基 
础 。 为 了 实现 这 一 弄 想 ， 我 们 必须 训练 控制 吸引 子 在 系统 状态 空 梧 中 的 位 置 。 王 足 为 了 以 希 
望 的 形式 编码 信息 或 者 学 习 感 兴趣 的 时 间 结 构 ， 学 习 算 法 采用 了 非 线 性 动力 学 方程 的 形式 扣 
纵 吸 引 于 在 状态 空间 的 位 置 . 通过 这 - :途径 ， 在 机 器 的 物理 性 能 和 计算 的 算法 之 间 建 立 紧密 
的 联系 是 可 能 的 ， 

利用 神经 网 络 的 集体 属性 实现 计算 任务 的 一 种 途径 就 起 经 由 能 量 最 小 化 的 鬼 念 。 在 
14.7 节 和 14.10 节 中 将 分 别 考 虑 的 Hopfield 了 网络 和 盒 中 脑 状 态 模型 是 这 种 方法 著名 的 例子 。 
这 了 两 种 模型 都 是 能 量 最 小 化 网 络 ; 它们 的 不 同 之 处 在 于 应 用 领域 不 同 。Hopfield 网 络 作为 按 
内 容 寻 址 存 镶 或 者 用 于 解决 组 合 类 型 最 优化 问题 的 模拟 计算 机 是 有 用 的 。 另 一 方面 ， 盒 中 脑 
状 仿 模型 对 于 案 类 业 型 的 应 用 是 有 用 的 。 本 章 上 后面 
几 怕 将 对 这 些 应 用 进行 说 明 。 

Hopfield 网 络 和 盒 中 脑 状态 模型 是 不 含 隐 藏 神经 
无 的 联想 记忆 的 实例 联想 记忆 是 智能 行为 的 一 个 
重要 来 源 。 另 一 个 神经 动力 学 模型 是 输 人 和 输出 映射 
语 类 型 的 ， 它 的 运行 依赖 二 隐藏 神经 无 的 可 用 性 。 
在 这 后 一 种 情况 中 ， 最 速 下 降 方法 经 党 被 用 于 最 小 
化 根据 网 络 参 数 定义 的 代价 函数 ， 并 因此 改 半 吸引 
于 位 置 。 这 后 一 种 神经 动力 学 模型 的 应 用 以 存 下 一 
章 中 讨论 的 动态 驱动 递归 网 络 的 作为 例子 。 


14.7 Hopfield 模型 


如 图 14-9 中 揪 给 的 那样 ，Hopfield 网 络 { 模 型 ) 
包含 一 组 神经 元 和 一 组 相应 的 单位 延迟 ， 构 成 一 个 
多 回路 反馈 系统 。 上 反馈 回 中 的 数量 等 于 神经 元 数 





量 。 基 本 上 ， 每 个 神经 元 的 输出 都 通过 一 个 单位 外 MEn Ue 
BEAMS EI ETB oe, Bi _ 

l 图 14-3 fe 经 opfield 
活 说， 网络 中 没有 自 反 馈 ， 避免 使 用 自 反馈 的 原因 ae e 
将 在 后 面 解释 ， 


Al TAR Hopfield 网 络 的 动力 学 ， 我 们 使 用 式 (14.16) 描 述 的 基于 神经 无 加 性 模型 的 神经 
功力 学 模型 。 
WA «Cason (QZ, 我们 可 以 把 式 (14.16) 改 写成 以 下 形式 ， 


d v(t) È | 
C, Fayl) =- K + 24 wip (vl)) + 了 = lpo, N (14.20) 


为 了 继续 讨论 ， 我们 作出 以 下 仿 定 : 
1. RARE REER AR, ARH 
Wi = Wy 对 所 有 7 和 (14.21) 
2. 每 个 覃 经 元 有 七 自 己 的 非 线 性 激活 隐 数 一 一 因此 在 式 (14.20) 中 使 用 p,a 
3. JFR PEP ena a, EER Sy, 
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v=o (x) (14.22) 
& sigmoid 因数 p; Cv) FAS TE EY ea 
1 - exp(— aw) 


x= plo) = tanh( YP) = SE 
EX, TER SARA al HRS, Hea x=¥o(v) 


(14.34) SE A T 
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此 后 我 们 将 把 a 称 为 神经 元 i 的 增益 。 
因此 ， 卫 (4.22) 的 逆 输 出 - 输 人 关系 可 以 写 
AN 





u = p(x) = 一 这 log( 7 一 z) (14.25) 


一 个 单位 增益 神经 元 的 逆 输 出 -输入 关系 的 标准 
形式 定义 为 


_] l- x 
gla) =- log =) 042%) an F 


按照 这 一 标准 关系 可 以 把 式 (14.2$5) 改 写 为 
pi (x) = Sp (a) (14.27) 


图 14- 10a 显示 标准 sigmoid HYFEAR TE ee ple ) HI EH 
2k, EG 14-10b KHM KERER ea e GOH 
曲线 。 

图 14-9 中 的 Hopfield 网 络 的 能 量 (Lyapunov) 函 
PUE MA (Hopfield, 1984) 





a} 


v=o lx} 


(14,28) 


57 ra T(x) dx — Ds 


i=l 


FRU (14.28) EX MRE AR E 为 可 能 具有 很 多 极 
小 点 的 复杂 图 像 。 网 络 的 动力 学 由 寻找 那些 极 小 
SABO Fal FIR 
AIE, K E 对 时 间 的 微分 ， 得 到 b) 

E D dx. 

F — (Dn - y -R + 1) (14.29) 图 14-10 
pp 所 具有 的 特点 ， 式 a ao 
(14.29) 右 癌 贺 括号 内 的 值 被 认为 是 Ca /下 。 于 是 可 以 把 式 (14.29) 简 化 为 

a Solaa (14.30) 
现在 光碟 由 x, 定义 的 上 的 道 关系 。 将 式 (14.22) 代 人 式 (14.30)， 得 到 
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Z. Sol gen) G =- Y6(F) get) aea 
从 图 14-10b 中 可 以 看 出 逆 输 出 输入 关系 中 oe ) 对 输出 x, ERRAR A ERST 
fe (oe) eO SAAR x, (14.32) 
我 们 也 注意 
(2) = 0 APAR] x, (14.33) 


Am., MAAL AR AAA eB EA. A kiA, AJA (14.28) 52 A ABE A 
SEKR, RATS <0。 由 式 (14.28) 的 定义 看 出 函数 E 是 有 界 的 。 因 此， 我 们 可 以 作出 
以 下 两 个 陈述 : 

1. HER E 是 连续 Hopfield 模型 的 Lyapunov MAŽE., 

2. 根据 Lyapunov 定理 1 模型 是 稳定 的 ， 

换 句 话说 ， 由 非 线性 一 阶 微分 方程 组 (14.20) 的 系统 描述 的 连续 Hopfield 模型 的 时 间 演 化 
代表 状态 空间 中 的 一 条 轴线 ， 该 轨 线 找 出 能 量 (Iyapunov) 函 数 E 的 极 小 值 并 在 这 样 的 固定 点 
上 终止 。 从 式 (14.31) 也 要 注意 ， 仅 当 

S(t) = 0 对 所 有 
时 ， 导 数 王 / 亚 变 为 零 。 因 此 可 以 进一步 写 出 
机 < 0 除 在 一 个 固定 之 外 (14.34) 
式 114.34) 给 出 了 下 述 定 理 的 基础 : 
Hopfield 4 $% #9 ( Lyapunov) AE 224k E Æ By E 6) 2B a He, 


Al, Hopfield 网 络 是 全 局 沫 近 稳 证 的; RSI Ee ARE RMA, eae 
篇 散 和 连续 Hopfield 模型 的 稳定 状态 之 间 的 关系 


Hopfield 网 络 可 以 用 连续 方式 或 离散 方式 运行 ， 依 赖 于 描述 神经 元 所 采用 的 模型 ， 连 续 
模型 的 运行 基于 前 面 摘 述 的 加 性 模型 。 另 一 方面 ， 离 散 模 型 的 运行 基于 McCulloch-Pitts 模型 。 
通过 重新 定义 神经 元 的 输入 - 输出 关系 ， 很 容易 在 连续 Hopfield 模型 稳定 状态 和 相应 的 离散 
Hopfield 模型 的 稳定 状态 之 间 建 立 联 系 ， 使 得 这 样 的 关系 满足 下 面 两 个 简化 特性 . 

1, 神经 元 的 输出 有 渐 近 值 


(14.35) 
2. HATTA RAAKA PATERA AE, KRA 
p, (0) = 0 (14.36) 
相应 地 ， 可 以 对 所 有 的 j RERE IL NE. 


为 了 表示 连续 Hopfield MMA AER RAR 后 ， 人 允许 神经 元 有 自 反 回路 。 另 一 方面 ， 离 散 
Hopfield 模型 不 需要 自 反 回路 。 因 此 ， 可 以 通过 在 两 种 模型 中 对 所 有 的 了 都 设置 四 =0 来 简 
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化 讨论 。 
根据 这 些 观察 ， 可 以 用 如 下 形式 重新 定 习 式 114.28) 给 出 的 连续 Hoptield HE A! IK) AE AT eA 
TE 


z- iD Dr + >? Rl, 9 gj! (x) dx (14.37) 
由 式 (14.27) 定 义 反 函数 er 于 是 可 以 重 写 式 (14 A RT 
z -5 ) Pr i D van o'(«) dx (14.38) 
积分 j 
| g(x) 


有 图 14-11 中 显示 的 标准 形式 。 在 x, =0 积分 值 为 零 ， 共 他 情况 其 值 为 正 。 假 没 在 x, 接近 
+t 1 时 其 值 非常 大 。 但 是 ， 如 果 神 经 元 j 增益 a, ACA A CBIR sigmoid AJEET 
理想 的 硬 限制 形式 )， 式 (14.38) 中 的 第 二 项 就 小 得 可 以 忽 Sg 

上 咯 不 记 了 。 在 限制 情况 下 ， 对 所 有 的 j, H a = %m 时 连续 i 
Hopfield 模型 的 极 大 、 极 小 值 变 成 和 高 散 Hopfield 模型 中 的 
对 应 值 相等 ， 后 一 情况 下 ， 能 量 (Lyapunoy) Pea AI EY Ta 
化 为 


N N 
a + 2 Di (14.39) 
[三 i= 


其 中 第 | 个 神经 元 状态 为 x = 上 1。 因 此， 我 们 得 出 结论 ， 
启 增 益 的 、 连 续 的 和 确定 的 Hopfield 模型 仅 有 的 稳定 点 对 
应 于 离散 随机 Hopfield 模型 的 稳定 点 。 

然而 ， 当 每 一 个 神经 元 } 有 很 大 但 是 有 限 的 增益 a 图 14-14 积分 | g O) ax 的 图 形 
时 ， 我 们 发 现 式 (14.38) 右 端 第 二 项 对 连续 模型 的 能 芋 函 
煞 有 了 明显 的 贡献。 特别 ， 这 一 贡献 在 舍 近 定 多 模型 状态 空间 的 直立 方 体 的 所 有 面 、 边 利 角 点 
处 都 很 大 并 且 为 正 。 而 另 一 方面 ， 该 贡献 在 远离 曲面 的 点 处 又 小 得 可 以 和 忽略。 因此， 这 种 异 
型 能 量 函 数 的 最 大 值 在 角 点 处 ,但 景 小 值 却 略 微 向 超 立 方 体 的 内 部 偏 物 {Hoptfield, 1984)。 

图 14-12 男 出 两 个 神经 元 的 连续 Hopfield 模型 的 能 量 等 值 线 图 或 能 量 图 。 两 个 神经 元 的 
笨 出 定义 图 中 的 两 个 坐标 轴 。 图 14- 12 中 左下 角 和 右上 角 代 表 汛 穷 增 益 限 制 情 况 下 的 稳定 最 
‘Mel; 有 限 增 益 情 况 下 的 最 小 值 将 向 内 部 偏 移 。 流 向 固定 点 ( 即 稳定 最 小 值 ) 的 流 可 以 解释 为 
忒 (14,28) 定 义 的 能 量 函 数 E 的 最 小 化 的 解 。 


离散 Hopfield 模型 作为 按 内 容 寻 址 存储 器 


Hopfield WATE ae AB bk A HE SS { content-addressable memory ) TE M aR A Weal TAPER 
的 注意 。 在 这 一 应 用 领域 ， 我 们 预先 知道 网 络 的 国定 点 ， 它 们 对 应 被 存储 模式 。 但 是 ,产生 
期 理 中 尚 定点 的 网 络 罕 触 权 值 是 未 知 的 ， 因 而 问题 在 于 如 何 确 定 它们 。 按 内 容 寻 征 存 储 器 的 
主要 功能 是 根据 模式 不 完整 蕊 有 噪声 的 表示 获取 存 鱼 在 存储 器 中 相应 模式 { 项 )。 为 了 以 简 消 
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图 14-12 两 个 神经 元 的 双 稳 定 态 系统 的 能 其 等 值 线 图 ， 纵 轴 和 横 轴 为 两 个 神经 

JORG. ReRe TA PSA Le, ARR FRO. A 

半 表 小 状 悉 的 移动 ， 移 支 一 般 不 垂直 于 能 量 的 等 值 线 图 . (SERRE SRS 
it. 488 J.J. Hopħeld, 1984) 


FAWR — Ba AD oe 3, RP PET T Hopfield 1982 年 的 论文 : 


假定 存储 在 存储 器 中 的 项 是 "H. 上 ,Kamers & G.H, Wannier Physi Rev. 60, 252(1941)."— 
MEMHRAR PARES, RHABH AS EERE RRP REHAB, HATS 
Wannier, 《1941) 4 SRR E S T., PR H GRR RARER HAE SR At A “Wannier, 
(1941) 就 能 检索 这 一 参考 文献 。 

因此 ， 按 内 容 寻 址 存储 器 的 一 个 重要 局 性 就 是 在 给 出 存储 模式 的 信息 内 容 的 一 个 合理 子 
集 的 情况 下 检索 该 模式 的 能 力 。 此 外 ， 根 据 提 供 的 线索 能 够 覆盖 不 一 致 的 信息 ， 在 这 种 意义 
下 按 内 容 寻 址 存储 是 可 以 纠 错 的 。 

按 内 雁 寻 址 存 销 器 (CAM) 的 本 质 足 映射 基本 存储 二 到 动态 系统 的 固定 点 (稳定 点 )X E, 
SLE 14-13 摘 绽 的 那样 。 在 数学 可 以 把 这 个 上 映射 表示 为 

5 ex, 
HER. AAAA ARR RE. MAG ACU AR de RE, PER AAAS SS Te 
吸引 于 固定 总 为 网 络 的 基本 记忆 或 做 原型 状态 。 假 说 现在 网 络 被 呈现 给 一 个 模 武 ， 这 个 模式 
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OAS R HEEBERRA E. WARI RARER Bom ARAB PBR 
MUE, erie eo A RS I ee Ce fe ee RS AAR, AS 
Mi WARIS [HY et E FP ee BR RM TERESA. TEAR PE eee R HER AR 
Hopfield RJE F (emergen) RIEM, ATERA ME TR a a AAE TE 


编码 


</ 3 
解码 


基本 记忆 空间 


存储 向 量 空间 
图 1413 递归 网 络 实现 的 编码 - 解码 示意 图 


在 使 用 McCulloch and Pitts( 1943) 的 正规 神经 元 作为 基本 处 理 单元 的 Hopfield 模型 中 ， 每 
一 个 这 样 的 神经 元 具有 由 作用 其 上 的 诱导 局 部 域 所 决定 的 两 个 状态 。 神 经 元 ;的 “ 开 ? 或 “点 
火 ORDHA HIA x = + 1 表示， 而" 关 " 或 “静止 "状态 用 x = -1 表示 ,因此 对 由 N 个 神经 
元 构成 的 网络 来 碗 ， 网 络 状态 自问 量 x= [x ,x2,… ,xy] ER. AF x, = +1， 神 经 元 i 的 
状态 表示 1 比特 信息 ， 而 Nx 1 aoe x Zeon N 比特 信息 的 一 进 制 字 。 

ETC j 的 请 导 局 部 域 o SEMA 


` 
H = ei WX; + b (14.40) 


其 中 b 是 额外 施加 在 神经 元 ij bea. A, Heo 根据 确定 性 规则 
+ i,v»>0 
ae 上 I,v, <0 
修改 它 的 状态 xa 
这 一 关系 可 以 政 写 为 紧 次 形式 x =senle,], HA son EAS BHR, WR 恰好 是 零 会 出 现 
TAG? 在 这 里 采取 的 行动 可 能 是 非常 任意 的 。 便 如， 如 果 w =0， 我 们 可 以 设置 x = +1, 
然而 ,我 们 将 使 用 如 下 约定 : WE vw 是 零 ， 神 经 元 j 保持 它 原 有 状态 ， 不 管 它 是 开 还 是 关 。 就 
像 将 在 后 面 说 明 的 那样 ， 这 一 假定 的 显著 意义 在 于 作为 结果 的 流 图 表 是 对 称 的 。 
把 离散 Hopfield DUZER TE ATE A AE ria ds REA PTE, BD ERR Pe EG A ir 
段 ， 如 下 面 说 明 的 那样 : 
L FEME. BE ee a HARRA E 4=1;2, ,时 | 的 浆 维 向 量 (一 进 制 字 ) 
合 。 我 们 称 这 M 个 阿 量 为 基本 记忆 ， 表 示 被 网 络 存 储 的 模式 。 今 总 ;表示 基本 记忆 E. R] 
A i TrA, HP pok,2.:,M . RITR ARLO, EE Hebb 学 习 的 基本 原则 的 
推广 ， 从 神经 元 i 到 神经 元 j 的 突 触 权 值 定义 为 
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Wa = WẸ y DSt. (14.41) 
使 用 WR FEY EL EA as ny eA EA S RETA, 息 检 索 的 数学 表述 。 也 要 注意 式 {14.41) 的 学 习 
FM Di] BE ER EP” Cone shoti Ao TE Hopfield 网 络 正 党 运行 中 ， 我 们 证 置 
wi =O ”对 于 所 有 的 i (14.42) 
这 意味 首 神经 元 没有 自 反 馈 。 令 W 表示 网 络 N x N AR, A we SEWER GT 
开票 。 从 而 我 们 可 以 地 式 (4.41) 和 有 114.42) 用 年 阵 形式 组 全 为 如 下 的 等 式 : 


= = DK -MI (14.43) 


HES BRAS g 和 它 自身 的 外 积 ， 而 工 表示 单位 惩 阵 。 从 这 一 罕 触 权 值 集 / 权 值 矩 阵 的 
定义 式 我 们 可 以 重新 确认 如 下 事实 ， 
* 2A tE “神经 元 的 输出 都 反馈 到 所 有 的 其 他 神经 
。 MAS PRA A he tac w; =0)。 
© 网 络 权 值 矩阵 是 对 称 的 ， 表 站 为 (参照 式 (14.21)) 
W-W (14.44) 
2. 检索 阶段 。 在 检索 阶段 ， 一 个 称 为 探 针 (pmbe) 的 N AERE Ea BRIF Hopfield 网 
乡 必 为 它 的 状态 。 探 针 阿 星 的 元 素 为 二 1。 它 典型 地 表征 网 络 中 基本 记忆 的 不 完整 或 噪声 形 
cae 然后 信息 检索 依照 动态 规则 进行 ， 在 该 规则 中 网 络 的 每 一 神经 元 j 随机 地 但 按 某 一 固定 
比率 检测 作用 在 其 上 的 请 导 局 部 域 w (包含 任意 非 零 偏 置 3)。 如 果 在 某 一 时 刻 o 大 于 零 ， 
则 神经 元 了 将 切换 它 的 状态 到 +， 或 者 保持 在 该 状态 ， 如 果 已 经 是 + 1 的话 。 类 似 地 ， 如 
未 3 小 于 委 ， 则 神经 元 了 将 切换 它 的 状态 到 - 1， 或 者 保持 在 该 状态 ， 如 果 已 经 是 -1 的话 。 
ME o 恰好 为 零 ， 则 不 管 是 开 还 是 关 ， 神 经 元 j 都 将 保持 原 有 状态 。 因 此 ， 从 一 个 迭代 到 
另 一 个 选 代 的 状态 更 新 是 确定 的 ， 伍 是 选择 进行 更 新 操作 的 神经 元 则 是 随机 的 。 这 里 描述 的 
并 步 ( 串 行 ) 更 新 过 程 继 续 直 到 没有 任何 进一步 的 变化 可 以 报告 为 上 上 上。 那 就 是 说 ， 用 探 针 向 量 
x 开炮， 最 疼 网 络 生 成 一 个 不 随时 间 改 变 的 状态 向 量 ¥Y， 它 的 每 个 元 素 孝 满足 稳定 性 条 件 
¥, = sen( >. WY: + b; ) pps ka (14.45) 
BY A HAREE T, 
y = sgn( Wy + b) (14.46) 
其 中 OW Fees RAS, b 是 外 部 施加 的 偏 置 向 量 。 这 里 描述 的 稳定 性 条 件 也 称 为 对 
齐 (alignment) 条 件 。 满 足 条 件 的 状态 向 量 y 称 为 系统 状态 空间 的 稳定 状态 或 固定 点 。 因 此 我 
们 避 以 作 这 样 的 陈述 ， 当 检索 操作 异步 进行 时 ，Heoplield MAE SENS HERE 。 
He 14-2 提出 对 Hopfield 网 络 提 作 包括 人 存 鳃 阶段 和 检索 阶段 的 步骤 的 一 个 小 结 ， 
表 14-2 Hopfied 模型 小 靖 
LFA, Oh. be 表示 己基 入 维基 本 记忆 的 集合 ,使 用 外 积 规 则 ( 即 Bebb 学 习 的 基本 原则 } 计 算 网 络 的 宪 船 权 
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其 中 ,为 从 神经 元 i ESTE NUMA OL RE EEY l 一 11 它 们 被 计算 出 ， 则 究 般 权 值 保持 不 变 . 
2, ARE. > Ce Ae AER A- RA N ERA RRT A 
a {Gi = R E Sa EN 
初始 化 算法 ， 其 中 (0) 是 神经 元 /在 时 间 n = ORTOP, È m EERIE Ena E GAER. 
3. 移 代 下 到 阔 化 。 根 据 如 下 规则 踢 步 地 { 即 随机 并 由 每 次 一 个 地 ) 艳 新 状态 向 景 x(n) 中 的 元 素 ， 
T 
Xr ra ee sen| Sx (a) | a 
1=1 
H RRA PAS mh E x FREER DS, 
4.47. Ox dena ARARE A Bee hd), POR eS a y 为 
了 一 Riven 


第 1 步 是 存 博 有 阶段， 第 ? 步 到 第 4 步 构 成 检索 阶段 ， 
例 14.2 为 了 说 明 Hopfield BAH PALIT A, SR 14- 14a 所 示 的 三 个 神经 元 的 网 络 。 
网 络 权 值 定 涟 为 


690 | PZ az 1 
AVA EAE TA (14.42) FRUA ARR, ATR GRE, PRE Aan ERA 


为 零 。 由 于 网 络 中 有 三 个 神经 元 ， 所 以 归 沽 虑 的 可 能 状态 有 F =8 种 。 这 8 种 状态 中 ， 只 有 
(G, -LDA -1,1, -1) 这 两 种 状态 是 稳定 的 ; 其 余 的 6 种 状态 都 是 不 稳定 的 。 我 们 说 这 两 
种 特殊 状态 是 稳定 的 是 因为 它们 都 满足 式 (14.46) 的 对 齐 条 件 、 半 状态 向 量 人 , - 1,1), FR) 


有 
Ü -2 + 217 41 + 4 
l 
Wy = 3 -2 0 -2 eM 一 中 
+2 -2 Q 4¢+ 1 +4 


+ | 
seul Wy] = . + y 


便 限 制 这 -结果 得 到 


关 偶 地， 对 状态 问 量 4- 1,1, -1)， 我 们 有 


1 -4 
wy - 引 -: 0 “af +1]= 3} +4 
+2 -2 Oty _4 


硬 限 制 这 -一 结果 之 后 ， 得 到 


UC. OPA AAA SS] ee AB AE ST ARTF 
Koh, BA 14-2 小 结 的 异步 更 新 过 程 ， 我 们 得 到 图 14- 14b 所 描绘 的 流 。 这 个 流 图 展 
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图 14-14 
a= 3 个 神 妈 元 的 Hopfield Mea FT ob) AR ae as R28 a A 


示 闫 于 网 络 中 直观 上 满足 条 件 的 两 个 稳定 状态 之 间 的 对 称 性 。 这 种 对 称 性 是 令 作 有 几 于 其 上 的 
诱导 局 部 域 恰好 为 零 的 神经 元 保留 在 原 有 状态 的 结果 。 |691 | 
图 l4- 14b 也 显示 出 如 果 图 14- 14a 的 网 络 初始 状态 是 (1,1,1、( 一 1 一 1,1) 或 (1, -1, 一 
1)， 那 么 在 一 次 迁 代 之 后 它 将 收 人 证 于 稳定 状态 (1, -1,1)。 如 果 初 始 状 态 是 ( -1, 一 1, 1)、 
(-1,1,1) 或 (411 -1 站， 则 它 将 收 伍 于 第 二 个 稳定 状态 4 - 1,1,- 1)。 
上 因此， 网 络 丰 两 个 基本 记忆 (~ 1,1D) 和 (! -1,1, - 1) 表征 这 两 个 稳定 状态 。 式 (14.43) 
的 应 用 产生 突 触 权 仁 矩阵 


+ 1 -1 | 0 0 
让 -让 | Ü 
— | 0 0 1 


+ ] 
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EAA 14- 14a 所 示 的 突 触 权 值 符合 。 

通过 检验 图 14- 14b 的 流 图 ，Hopfield 网 络 的 记 错 能 力 是 显而易见 有 的: 

1. RE AEP LRT el et OE SO -1 - 1,0). 01,1), -1,-1). We 
为 结果 的 输出 是 基本 记忆 {1, -1,1)。 每 个 这 样 的 探 针 的 值 表 示 个 和 存储 模式 相 比 的 单 
Ra 

2. 如 果 探 针 癌 量 i 等 于 (4,1, 一 1)、( 一 1, 一 4, 一 1) 或 (一 1,1,1}， 则 作为 结果 的 输出 
是 基本 记忆 ( -1,1, -1)。 这 里 表 次 表明 ， 每 个 这 样 的 探 计 表示 个 和 存储 模式 相 比 的 单 - 
fH Ro A 


伪 状 态 


就 像 式 (14.44) 指 出 的 那样 ， 离 散 Hopfield 网 络 的 权 值 人 第 阵 W 是 对 称 的 。 因 此 W 的 特征 
值 都 是 实数 。 然 而 ， 当 M 很 大 的 时 候 特 征 值 通常 是 退化 的 (degenerate)， 这 意味 普 有 几 个 特 
征 酉 量 有 同样 的 特征 值 。 通 过 退化 特征 值 联系 的 几 个 特征 向 量 构成 了 一 个 子 空 间 。 此 外 ， 权 
值 币 阵 W 退化 特征 值 有 等 于 零 的 ， 这 种 情况 下 的 子 空间 叫做 零 空 间 。 零 空间 的 存在 是 由 于 
基本 记忆 的 数量 M 小 于 网 络 中 神经 元 数量 六 的 事实 。 零 空间 的 出 现 是 Hopfield 网 络 的 内 在 
特性 。 

权 值 定 隆 W 的 特征 分 析 ， 使 得 我 们 对 把 离散 Hopfield 网 络 必 为 按 内 容 寻 址 存储器 持 下 
列 观点 (Aiyer et al. ,1990) : 

1 . 离散 Hopfield 网 络 将 探 针 向 量 投影 到 被 基本 记忆 癌 量 扩张 成 的 子 空间 如上 ， 从 这 种 总 
MER. ERP MSRBSHEA. 

2, 网 络 因 有 的 动力 学 把 结果 投影 向 量 驱 动 到 单位 超 立 方 体 的 能 量 函 数 最 小 的 一 个 角 点 

单位 超 立 方 体 是 N 维 的 。 扩 张 成 子 空间 机 的 村 个 基本 记忆 向 量 组 成 由 单位 超 并 方 体 确 
ne EA) AB Ra ea HA RE a RR EAR OAS SER AA St he FEE AA A BB a H 
FASE EKA (spurious states) 的 所 在 位 置 ， 也 称 为 仿 吸 引子 (Amit,1989 )。 伪 状态 表示 
Hopfield 网 络 中 不 同 于 网 络 基本 记忆 的 其 他 稳定 状态 。 

PUK, CERI HE APRA A EOL FABRE Hopfield 网 络 过 程 中 ， 我 们 面临 着 对 啊 个 矛盾 需求 
的 权衡 ;HH) 希 要 在 状态 空间 中 保持 基本 记忆 向 量 作为 固定 点 ，(2) 和 布 望 有 少量 的 伪 状 态 。 


Hopfield 网 络 的 存储 容量 


PERE, Hopfield 网 络 的 基本 记忆 不 总 是 稳定 的 。 而 且 ， 可 能 出 现 由 伪 状 态 表征 的 不 
辣 于 基本 记忆 的 其 他 楼 是 状态 。 这 两 个 现象 撕 疝 于 降 供 作为 按 内 容 寻 扯 存 储 露 的 Hopfield 网 
洛 的 表率 。 在 这 里 我 们 探索 一 下 第 一 个 现象 。 

令 探 时 等 于 作用 于 网 络 上 的 基本 记忆 中 的 一 个 &。 然 后 ， 为 了 一 般 性 允许 使 用 自 反 馈 
并 设 定 零 仿 置 ， 我 们 发 现 使 用 式 (14.41)， 则 神经 元 了 的 诱导 局 部 域 为 : 
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” = Dk. = ke pe ae +o ys Sub. (14.47) 


WA 14.47) 44 fig —Ail AEA tS ESR DR: 现在 我 们 可 以 看 出 比例 因子 LN 为 入 
ARS) AZ (14.41) PRAXE we, 的 定 关 中。 因此 这 一 项 可 以 敌 看 作 期望 中 的 “信和 号 "成 
分 。 式 {114.47) 石 山 第 二 项 是 在 被 测 基 本 记忆 上 总 的 元 紊 和 其 他 基本 记忆 上 总 的 元 素 之 间 的 “ 串 
È (crosstalk) 的 结伴: 因而 这 第 二 项 可 以 被 看 作 o 的 "噪声 "成 分 。 因 此 我 们 有 了 和 通信 理论 
由 典型 的 " 带 虹 声 信号 检 凋 问题 “类似 的 情景 (Haykin,1994b ). 

我 们 假设 茹 本 记忆 是 渭 机 的 和 和 作为 MN 个 Bemoulli 实验 译 列 牛 成 的 。 那 么 式 114,.47) 中 
的 噪声 项 构成 NOM -DARA +1 的 独立 随机 变量 的 求 和 除 以 N。 这 正 是 使 用 概率 论 中 
的 中 心 极限 定理 的 情形 。 中 心 极 跟 定 理 陈 述 如 下 {Feller,1968)， 

令 | 久 :1 为 同 分 页 的 互相 独立 随机 变量 序列 。 慨 设 了 具有 均值 和 方差 ， 令 站 = 于 ,+ 
Ateet Ao MAR nr Ae LR, KAMAE SE Y HRD AAT Gaus 分 布 。 


AU, te E1447) PR eo E RHA PERRE, FE A Ta AY «Gauss 分 
W 构成 等 式 中 噪声 项 的 这 NOM -DAAE ee PHT aA OO EN’. Bm, 
推 知 高 斯 分 布 的 统计 学 性 质 为 

© EHS 

© FRE FCM- DIN 

fa Sat g SF + 1 或 -1 eS, HARA OMS 1. BS ee 
( signal-to-noise ratio) EX J 


EPES | N 
p= EEFE = (M D/N = M 对 于 很 天 的 M (14.48) 


ZEA ICI E ARD SAR SERE o RRA ERE, ME., BRIE M 提供 
HR EEA A E (storage capacity) 的 方法 。 因 此 ， 只 更 网 络 存储 容量 不 超载 ， 世 就 是 说 
基本 记忆 数量 OM 比 网 络 中 神经 元 数量 要 小 ， 由 式 414.48) 可 得 基本 记忆 从 概率 意义 上 足 稳 
定 的 。 

言 噪 比 的 倒数 ， 也 就 是 


to 


i (14.49) 


称 为 负载 参数 (]oad parameter)。 统 计 物 理学 的 考虑 显示 出 Hopfield PZB Wid 1Z fe # BY ie a 
HABM o 的 增加 而 有 恶化， 并 和 且 症 临 界 值 w = 0.14 ALARM ( Amit, 1989; Miller and Reinhardt, 
990)。 这 一 临界 值 与 Hopnfield(1982) 的 估计 相符 ， 其 中 作为 计算 机 模 所 的 结果 报告 0.15 NT 

状态 可 以 在 错误 变 得 严重 之 前 同时 被 检索 出 。 

由 于 a =0.14， 我 们 从 式 (44.48) 发 现 信 噪 比 的 临界 值 o. ~7， 或 者 等 价 的 8.45 4 il, 
START SH. UGC RE HE 

临界 值 M =a.N=0.14N (14.50) 
定义 检索 的 容错 存储 容量 ,为 了 确定 不 带 错误 的 存储 容量 ， 我 们 必须 使 用 下 而 描述 的 错误 概 
率 定义 的 更 严格 准则 。 

令 探 针 Ene = EHS 位 为 符号 1， 也 就 是 总 ,= 1。 那 么 检索 时 第 /位 出 错 的 条 件 概 率 


ww ai bbt.com TAAWAOAA 





| 694 | 


208 FHE 





el OEE EE EE a A es 


由 图 14- 15 中 的 办 最 区 域 定义 。 这 一 曲线 下 的 其 余 区 域 为 探 针 第 ;位 正确 恢复 的 条 件 概 率 。 
使 用 熟知 的 高 斯 分 布 公式 ， 后 一 条 件 概率 由 下 式 给 出 : 


| ,Lr (o 
Pla > O1&, =+1) = =|, expl - y (14.51) 


HS EEA +1, FFA A447) PR SHS TSE, HE ROL V 的 均值 为 
pol, WAN oe =(M-1IV/N, MOR ASER SN HTAR EE. 我们 有 


De. ce 
erf{(y) = e dz (14,52) 
i i 


其 中 y AENEA CABRERA (14 SRE 
Pa > Ol, =41) = Ali + etl 2)| (14.53) 


HF p ÆRA 58 X RHR e, RITT EIE R AZ EA PORES 
JAK, H ERILE A n fe. PE, REAR EGER, ARR SRA NARE 
MA 


P = (P(e, > O01 &, =4+1)" (14.54) 

我 们 可 以 使 用 这 一 慨 率 来 构成 Hopfield MARA RIN IA. Ah, FR ae LR TAH 

oS = 及 .作为 网 络 中 能 够 存储 的 最 大 基本 沁 忆 数量 ， 并 日 强调 它们 中 的 绝 大 部 分 能 
锌 正确 检索 。 在 习题 14.8 中 证 明 由 这 个 存储 容量 的 定义 得 介 公 式 

,| (14.55) 


2log, N 





图 14-15 位 出 错 的 条 件 概 率 ， 假 设 神经 元 j EATER o 为 高 其 分布 
BERERA Ce A Pn VNR, » 表示 它 的 实现 


图 14-16 st (14.50) E XA a ee A BEA 14.55) MALE OB a iR T A 
量 两 者 对 于 网 络 大 小 N 的 关系 图 形 。 从 沪 图 中 我 们 注意 以 下 两 点 : 


© Hopfield 阿 络 的 存 情 容量 本 质 上 与 网 络 大 小 N 成 线性 关系 。 
¢ Hopfield 阅 络 的 主要 局 限 在 于 ， 为 了 基本 纪 忆 的 可 恢复 性 ， 它 有 的 存 依 容 量 必须 维持 很 


小 [5 
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HA, N 


H 14-16 Hopfield MJA HU A EASP PrI A E a A: 
He ALL PF Ar RR 


14.8 计算 机 实验 I 


这 一 节 中 我 们 用 计算 机 实验 来 说 明 作 为 按 肉 容 寻 址 存储 的 离散 Hopfield 网 络 的 性 能 。 实 
验 中 使 用 的 网 络 包 会 N= 120 个 神经 元 ， 因 此 有 N -上 = 12 280 个 突 租 权 值 。 它 捉 训 练 用 于 
恢复 图 14-17 中 的 8 PEFR RUA, BARR 120 个 象 泰 (图 元 素 ) 并 特 副 度 计 产生 
R 好 的 性 能 (Lippmann,1987 ) : 在 网 络 的 输入 中 设 定 用 值 + 1 表示 黑 象 素 ，-- 1 表示 白 象 素 。 
JE Hopfield RUZ FER (SE Te, E 14-17 中 的 8 个 图 样 被 用 作 基 本 证 所 使 用 式 (14.43) 生 
HY FE ARR (ERE WR REA R MRR 14-2 中 说 明 的 那样 异步 进行 ， 

在 实验 恢复 部 分 的 第 一 阶段 、 基 本 记忆 被 提交 给 网 络 ， 检验 从 突 触 术 值 矩阵 存储 的 信 
尽 中 正确 个 复 它们 的 能 力 ， 每 一 种 情况 下 ， 希 望 得 到 的 图 样 都 在 一 次 迫 代 之 后 由 网 络 生 
成 了 ， 

下 一 步 ， 为 了 验证 Hopfield 网 络 的 纠 错 能 力 ， 通 过 使 用 0.25 的 概率 随机 地 和 独立 地 从 
+ 1 到 ~1 反 转 每 一 个 象 素 ， 并 反 过 来 进行 这样 随机 所 曲 一 个 感 兴趣 的 图 样 ， 然 后 使 用 这 
个 被 破坏 的 图 样 作为 网 络 的 探 守 。 对 数字 3 的 实验 结果 如 图 14-18 所 示 。 图 中 上 部 分 表示 数 
子 3 的 被 破 十 版 本 ， 世 就 是 在 时 刻 零 作用 在 网 络 上 的 图 样 。 网 络 在 5 次 、10 深 、15 次 、20 
K. 257K, 307K 35 WIEN ZERO REM PHARM, Re Ae, 
我 们 看 到 网 络 输 出 和 数字 3 的 类 同 之 处 逐步 提高 。 事 实 上 ， 在 35 MARSA IE 
数字 3 的 准确 形式 。 

理论 上 对 每 个 被 破坏 图样 因为 hopfield 网 络 中 有 120 个 神经 元 的 四 分 之 一 改变 状态 ， 所 
以 检索 所 和 需 夺 代数 量 平均 值 为 了。 在 我 们 的 实验 中 ， 对 不 同 图 样 从 它们 被 破坏 形式 进行 检 
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图 14-18 损坏 图 样 3 的 正确 恢复 
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M3 (35) 


FE LE BY Sif 





EIFE E a A a CE EE BY eek 
_ ire A 
1 32 
2 26 
3 35 
4 25 
6 37 
= 32 
9 26 





检索 所 需 达 代 次 数 在 8 个 图 样 寺 平均 所 得 平均 值 大 约 是 31， 这 表明 Hopfield 网 络 像 预 期 (093) 
的 那样 运转 ， 

Hopfield 网 络 固 有 的 问题 出 现在 一 个 基本 记忆 的 被 破坏 版 本 提交 给 网 络 的 时 候 ， 然 后 随 
OSA SFT LEP RRB AER = GR ES 14-19 中 说 明 ， 其 中 提交 给 网 络 的 
起 髓 破坏 图 样 2 ， 但 是 在 47 次 迁 代 之 后 网 络 收 伍 在 基本 记忆 *6”F 了 . 
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图 14-19 损坏 图 样 2 GREK 


PLR AT PES ABE, Œ Hopfield 网 络 中 还 出 现 男 外 一 个 问题 ， 仿 状 态 的 存在 。 图 14- 
20 BLA 14 x 8 的 网 络 状 态 矩 隆 ) 给 出 在 43 097 次 对 随机 选择 的 数字 按 0.25 的 概率 翻转 1 位 被 
破坏 的 检验 中 发 现 的 108 种 伪 吸 引子 。 的 状态 可 以 分 组 如 下 (Amit,1989 )- 
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1. 反 基 本 记忆 。 这 些 伪 状 态 是 网 络 基本 记忆 的 反 转 ( 即 负 的) 版 本 ; P, BEA 14-20 
中 位 置 1 x 1 处 的 状态 ， 它 表示 图 14- 17 中 数字 6 的 负数。 为 了 解释 这 类 伪 状 态 ， 我 们 注意 
HE Se ena E 在 神经 无 状态 反 转 的 时 收 保 持 它 的 值 不 变 ， 从 这 种 意义 上 说 它 是 对 称 的 ( 妈 对 于 
ArH i, Rak n H-a 蔡 挽 }。 因 此 ， 如 果 基 本 记忆 对 应 能 量 等 值 线 的 某 . -特定 局 部 极 
小 人 但， 同样 该 最 小 值 也 对 应 -6。 如 果 被 恢复 模式 的 所 有 信息 位 都 被 反 转 的 话 ， 也 就 是 如 昌 
呆 岂 发 现 那 些 特定 的 位 即 设 计 为 -1 的 “符号 "位 被 + ] 替换 的 话 ， 则 这 一 符号 反 转 不 会 给 信 
RAK RH KF) 

2. RERS. EA (mixture) HAAS TT HARASS. Ba, FERS 

x; = sgn +&,; +6.) 

EP EG ARSE. CAZIER. & AE, 通过 多 数 原 则 形成 的 。 对 大 型 网 络 ， 
这 样 的 状 仿 是 满足 式 (14. 和 5) 的 稳定 条 件 的 。 图 14-20 中 第 6 行 第 4 列 位 置 的 图 样 代表 一 个 出 
以 下 基本 记忆 组 成 的 三 混合 伪 状 态 ;: 与 = 负 的 数字 1, & = 数字 4, 总 = 数字 9。 

3. 旋转 玻 瑞 装 苞 。 这 种 盆 状 态 这 样 命名 与 统计 力学 的 旋转 玻璃 模型 将 似 。 旋 转 玻 璃 状 
态 由 没有 和 网 络 中 基本 记忆 相互 关联 的 能 量 等 值 线 的 局 部 最 小 值 定义 ; 例如 ， 参 看 图 14-20 
中 第 ?了 行 第 6 列 处 的 状态 。 


14.9 Cohen-Grossberg 定理 


TE Cohen-Grossberg(1983) ， 给 出 评价 由 如 下 联 立 非 线性 微分 方程 组 摘 述 的 一 类 神经 网 络 
的 稳定 性 的 一 般 原 大 : 


su = a(u,)[ 5)(u,) - > epi Cw) l,i = leo, N (14.56) 

根据 Cohen-Grossberg e 这 类 神 经 网 络 容许 定义 一 个 Lyapunov PAA (A JJ ÈE 14.13) 
D 2 srtz Jp; Cuj) - Hh b (Ag (AYR (14.57) 
其 中 0,00) = 及 (gr(A)) (14.58) 


为 了 使 式 (14.57) 的 定义 有 效 ， 需要 下 面条 件 成 立 ， 
L. 网 络 的 突 触 权 值 对 称 : 


Cy = Cz (14.59) 
2.a; u ESE MERE : 
alal = O (14.60) 
3. 非 线 性 输入 -输出 函数 满足 单调 性 条 件 ， 
p Oy) = £ gly) = 0 (14.61) 


现在 ， 我 们 可 以 正式 地 陈述 Cohen-Grossberg 定理 ， 


和 如果 非 线 性 微分 方程 组 (14.56) 满 足 对 称 性 、 非 负 性 和 单调 性 ， 则 由 式 (14.57) 描 述 的 
Lyapunov 函数 此 满足 条 件 
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— E Lyapunov aK E RARER. RSE TEA Lyapunov 定理 1 推出 。 
Hopfield 模型 作为 Cohen-Grossberg 定理 的 特例 


对 一 个 连续 的 Hopfield 模型 ， 通 过 比较 方程 组 (14.56) 和 方程 组 (14.20)，,， FRAT TT LBD 
Hopfield 模型 和 Cohen-Grossberg 定 奸 之 间 的 对 应 关系 ， 这 种 关系 如 衣 14-3 Bras. 在 式 (14.57) 
Pie Fe. ATLA GR BU ESE Hopfield 模型 的 Lyapunov 函数 


NON Wie: Sage ge. 
F --5 a >, wp Cv, lo, Cy) 十 HE a 1,} gf (v) de (14.62) 
t=] gol j=] 7 


ACPA ES TER TS R (+) FAK (14,.23) EX. 
接 下 来 ， 我 们 得 到 其 下 的 观察 结果 : 
| p; (4,3 = Ai 


2.| pr)d = |" dx = %, 
中 J. 


3. | og, (a) de = dx = | g(x) 
0 a {l L 


从 基本 上 说 ， 关 系 式 2 和 3 通过 应 用 * = PV) 和 得到。 这样， 在 式 (14.62) 的 Lyapunov 图 数 中 
运用 这 些 观察 就 可 以 得 到 和 我 们 早先 描述 的 相同 的 结果 ;， 参看 式 (14.28)。 然 吃 ， 尽 管 和 (ap] 
DIERA o HIERAR, DEALS DIARAH Lyapunov 函数 成 立 ， 并 不 需要 pi (0) EE 
Ay AY. 
Cohen-Gnossberg 定理 是 有 广泛 应 用 的 神经 动力 学 的 一 个 基本 原理 。 在 下 一 节 我 们 考虑 这 
个 重要 定理 的 另 一 个 应 用 . 
14-3 Cohen-Grossberg 定理 和 Hopfield 模型 的 对 应 关系 





Cohen-Grossherg 定理 Hopfield 模型 
ak) i 

bi, J -ini R) +F, 
Ca 一 Wi 

ou) plu, } 


14.10 盒 中 脑 状 态 模 型 


在 这 一 六 中 ， 拒 们 通过 尝 习 盒 中 脑 状 态 {brain-state-in-a-box,BSB ?模型 来 继续 联想 记忆 的 
神经 动力 学 的 分 析 。 该 模型 首先 由 Anderson et al.(1977) 4838, BSB 模型 基本 上 是 一 个 带 福 度 
限制 的 正 反 镇 系统 ,说 模型 是 由 一 组 反馈 回 自身 的 高 度 和 车 连 的 神经 元 组 成 。 模 型 用 内 置 的 正 
反馈 来 放大 输 大 模式 ， 直 到 模型 中 的 所 有 神经 元 饱和 。 这 样 ，BSB 模型 可 以 看 作 一 个 分 类 
峰 ， 在 该 分 类 带 中 ， 给 定 一 个 模拟 输 和 人 模式， 产生 一 个 由 模型 稳定 状态 描述 的 数字 表示 。 

FAW 表示 对 称 权 值 矩阵 ， 该 第 阵 的 最 大 特征 仁 为 正 实数 。 用 x(00) 表 示 模 型 的 初 寻 状态 
mae, CRAB. BRERA PAN 个 神经 元 。 模 型 的 状态 向 量 是 NAN, WE 
Nx NIERE., BSBA PARSER 

y(n) = xin) + BWx(n) (14.63) 
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xin +1) = gly(n)) (14.64) 
其 中 是 一 个 称 为 反馈 因子 的 正 的 小 常数 ，x(n) 是 模型 在 时 刻 n 的 状态 问 量 。 图 14-21a © 
示 式 (14.63) 和 式 (14.64) 的 联合 框图 。 方 框 W 代表 一 个 单 层 线性 神经 网 络 ， 如 图 14-21b 所 
7Ro WAR 9 是 一 个 作用 在 yM ENP RAMEE, y (n) 是 向 量 y(n) 的 第 j 个 分 量 ， 
SOP Bras CA 14-22) 


+1 Y yin} >+1 
xin +l) = ply(n)) = 17,62) “4-~le y(n) <+1 (14,65) 
- | H yín} <-1 
式 (14.65) 限 制 BSB AR KRA fa] SARS CERAR ON 维 单位 立方 体 中 。 
反馈 因子 单位 延迟 al 


Heyl tt} 
HA H 
x(n + 1) 


eH BE TAHES yt 
a) h) 





图 14-21 
a) 2 HAR (BSB FR He A) DEE W ea ER EE Se 


算法 如 下 进行 : — PMX x(0) x 

作为 一 个 初始 状态 向 量 输入 BSB 模型 ， 式 

(14.63) FRITH Is] BE yt0)， 式 (14.64) 用 

eM yY(0)， 获 得 更 新 状态 向 量 x(1)。 m 
RA, x1) ST (14.63) #1( 14.64) FBP 

到 xt2)。 这 个 过 程 一 直 和 章 复 直到 BSB 模 

型 达到 一 个 稳定 状态 ， 该 状态 代表 超 立 方 | 

AEA. HWE, BSB 模型 的 正 反 
局 引 起 初始 状态 向 量 xf10) 的 Euclid KE 
( 范 数 ) 随 迭代 次 数 的 增加 而 增加 ， 直 到 它 
MBS BMWA AL, Riel 
ATT, RACER TH —TPREAA 
E, TREERE E ANAS BEA BS a 
(Kawamoto and Anderson 1985), i Mi E & 
fe 7 4 HE. 图 14-22 BSB 模型 使 用 的 分 段 线性 函数 


-1 


BSB 模型 的 Lyapunov de 


里 新 定 儿 BSB 模 型 可 以 作为 由 式 (14.16) 描 述 的 神经 动力 学 模型 的 一 个 特例 (Grossberg， 
1990)。 为 了 看 到 这 一 点 ， 首 先 以 下 述 形 式 重 写 由 式 (14.63) 和 {14.64) 描 述 的 BSB 算法 的 第 j 
个 组 成 部 分 : 
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x(nt+1) = teenie Ses Ned ey (14.66) 
系数 oth 
cr = 0, + Bw, (14.67) 
定义 ， 其 中 aW Kronecher 8 国 数 ， 仅 当 站 = ;时 为 1， 其 余 情况 为 0， w EIER W KS ji 
个 元 率 。 式 (14.66) 是 黄 敬 的 时 间 形 式 。 为 了 进一步 寻 理 ， 重 新 用 连续 时 间 形 式 写 出 它 的 公 
并 r 
a (a) T x (8) Eg pl 2 olt) f= dae aN (14.68) 
其 中 信 置 二 对 所 有 的 了 都 为 0。 然 而， 为 了 应 用 Cohen-Grossberg 定理 ， 必 须 进 一 步 把 式 
(14.68) 畦 换 成 加 性 模型 的 形式 。 我 们 可 i soa 
a(t ) = Sega (0 (14.69) 
来 做 到 这 点 。 然 后 ， 通 过 式 {14.67) 中 c 的 定义 ， 发 现 


全 Deut) (14.70) 
AEE, BSE (14.68) RR EE 
$50) == 904 de roln G) = 1,2,4, N (14.71) 


更 在， 我 们 准备 把 Cohen-Grossherg 定理 应 用 到 BSB 模型 上 .通过 比较 式 (14.71) 和 
(14.56), TE BQ 14-4 所 示 的 BSB 模型 和 Cohen- -Grossberg 定理 的 对 应 关系 。 因 此 ， 把 表 
14-4 的 结果 用 于 式 (14.57)， ae pop 模型 的 Lyapunov 函数 


E=-5 P De soln deln) 4 Sp wna (14.72) 


其 中 of Cv) & sigmoid RA ol v) 它 的 参数 的 一 Br Seay. dela, É A(14.65), (14.67) 和 
(14.69) 的 定义 代 人 式 (14.72)， 就 能 用 原始 状态 向 量 定 闵 BSB 模型 的 Lyapunov PAAD F: 





NON 
E =- £ ds 2 WX X= 一 Ex" Wx (14.73) 
14-4 Cohen-Grossherg 定理 和 BSB 模型 的 对 应 关系 
Cohen-Groasherg 定理 BSB 模型 
a, Cu; } l 
b fu) 一 办 
pia) pin) 





在 14.7 节 中 对 Hopfield 网 络 Lyapunov 函数 的 估计 ， 人 很 定 模型 的 非 线 性 sigmoid pa AI 
的 导数 存在 ， 此 条 件 是 通过 用 一 个 双 曲 线 正切 廿 数 来 满足 的 。 相 反 ， 存 BSB 模型 中 ， 当 第 j 
个 神经 元 的 状态 变量 是 +1 或 -1 了 时， io PARI RIAL. BOI, BSB MAA Lyapunov 
力 效 能 通过 Cohen-Grossberg 定理 来 估计 ， 从 而 清楚 地 表明 这 个 重要 定理 可 以 普遍 应 用 。 
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BSB 模型 动力 学 


在 由 Goldent 1986) 进 行 的 直接 分 析 趾 ， 说 朋 BSB 模型 实际 是 一 个 梯度 下 降 算 法 ， 使 得 由 
wh(14.73) Aira SC ARE et eR ae 达到 最 小 。 然 而 BSB RWHP REHM ES IRA eS W 
WAL ERDAN: 

。 权 值 矩阵 Waste, Eww’. 

* PUA WEF Ua; EME, AT WW 的 特征 值 ， 我 们 有 1.20. HPAL 

W 的 最 小 特征 值 。 
这 样 ， 当 在 时 间 rx + 1 时 的 状态 向 量 xn + DER a MORASS x(n} 不 同时 ，BSB 模型 
HJE RA Bn AACR) AS A eh, EAE, BE Sree E 的 最 小 点 定义 BSB 模 
型 的 平衡 状态 ， 模 型 出 
x(n + l) 二 XI) 
KME, PROT, {F Hopfield 模型 一 样 ，BSB 模型 是 - :个 能 量 最 小 化 网 络 。 

BSB 模型 的 平衡 状态 出 单位 超 立 方 体 的 特定 的 角 点 利 它 的 原点 定义 。 在 后 一 神情 况 ( 在 
原点 )， 状 态 同 量 的 任何 流动， 无论 是 多 么 小 ， 部 被 模型 中 的 正 反 馈 放 太 ， 因 此 引起 模型 从 
息 点 问 税 定 状 态 深 移 ; 括 可 话 证 ， 原 点 是 一 个 鞍点 。 对 超 立 方 体 来 说 ， 要 使 它 的 得 个 角 点 作 
H BSB BLAKE RAS, BURR W 必须 满足 第 二 个 条 件 (Creenberg 1988); 

© AGE W est A Etg (dominant), HA xt 

wi oe >) | wy | 对 所 有 的 了 = 1,2, (14.74) 


其 中 ww 是 WAS y TICK o 
ANT EOP RSS XB, LA Tie we RE —-- ae eal 
(attractor), ALARA ATR UA — PR SEN (x), GRIN (x) PRT A BRAS 
x(0), BSB 模型 都 收 售 于 。 为 了 使 单位 起 立方 体 的 每 一 个 角 点 是 一 个 可 能 的 点 吸引 子 ， 权 
值 算 阵 必须 满足 第 四 个 条 件 (Greenberg，1988); 
© SURE W 是 强 对 角 人 优势 和 的， 表示 为 
Ww, >, | wl+a 对 于 7 = 1,2… N (14.75) 


其 中 a fe — PIER E 

这 里 讨论 的 重点 是 : 如果 BSR 模型 的 权 值 矩阵 W 只 是 对 称 的 和 正 半 定 的 ， 单 位 立方 体 
中 只 有 一 些 { 不 是 所 有 ) 角 点 是 点 吸引 子 。 为 了 使 单位 立方 体 中 的 所 有 和 角 点 是 法 在 的 点 吸引 
T, AER 下 tes Eh 14.75), (14.75) HRAS R.T) 


桌 类 


BSR 覃 型 的 一 个 身 然 应 用 基 洁 类。 这 是 因为 单位 超 立 方 体 的 梅 定 角 点 作为 有 吸引 筑 的 点 
把 引子 ， 会 把 状态 空间 划分 为 相应 的 明确 定义 的 区 域 。 因 此 ，BSB 模型 可 以 用 作 一 种 无 监督 
的 聚 类 算法 ， 其 中 单位 超 立 方 体 的 每 一 个 稳定 角 点 代表 相关 数据 的 一 个 “ 聚 类 ”。 由 正 反 局所 
提供 的 自 放 大 (符合 在 第 8 章 描 述 的 征 组 织 规 则 )}) 是 诊 类 性 质 的 一 个 重 归 成 分 。 

Anderson et al. (1900 bj) 手 述 用 BSB SAT Ree MTA SIM inl A aR AA TA fa SS. 在 
这 个 应 用 中 ， 作 为 BSB RA SC ee W 用 第 2 RNP RABIES UA 
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RS ORAM ETE. Pa. Be BALA K TUS, HE) SAE 
们 目 己 的 联系 如 下 : 


xX, — X, k = 1,2,. ,KK (14.76) 
以 随机 方式 选 定 训练 问 量 x, TI W RRR FERA SAJE 13.9) 
AW = n(x, — Wx, )x, (14.77) 
EI HP EFESE FARE x 的 目的 是 使 线性 联想 器 工作 如 下 
Wx, = x,,4 = 1,2,°".K (14.78) 


ZU (14..77 ) 75 RY AE ERRERA Fe EOP PRR 14.78) EE, RPE 
JENERA A oe Ee HE A a PoE 2 PE el et CS eee MO), PE ASF 1, 

Ait SERBIA aS RSE, BSB OU AY Ti URE BE A RRA OK OW, 

并 完成 下 面 的 计算 (Anderson et al., 1990)- 
x(n +1) = ofyx(n) + BWx(n) + 8x(0)) (14.79) 
UE AFR (14.63) ALA (14.64) SE AY) BSB 算法 有 细微 的 差别 ， 差 别 在 两 方面; 
. 在 入 一 项 y a PRR y OMAR SRR RM. BE 了 是 一 个 比 于 小 的 正常 
MW, RERAE RF O. 
© 第 三 项 5x(0) 是 为 了 保持 初始 状态 向 量 x(0) 一 直 出 现 ; 它 有 限制 8SB 模型 的 可 能 状 
态 的 作用 。 

BSB 模型 的 重复 选 代 导 致 由 具有 最 大 特征 值 的 权 值 矩阵 WOE o BE 
因此 ， 线 性 联想 器 学 会 了 向 量 台 ,x ,… x, 。BSB BA RET IRE. 信和 号 相关 的 特征 
问 量 与 大 的 特征 什 相 对 应 ， 在 模型 中 由 正 反 馈 进 行 放 大 ， 因 此 在 大 量 夺 代 之 后 便 支 配 和 模型 的 
RAS. AAT, WAAC ARE A SU REE (AY. IAL, St BSB 模 现 的 状 
AS — “Pee a A, ee A EEE E a a 

在 一 个 雷达 监视 环境 中 ， 环 境 中 发 射 器 运行 的 细节 措 述 是 未 知 的 。 在 几 分 之 一 秒 内 接受 
成 干 上 万 的 皆 达 脉冲 进行 处 埋 。 因 此 不 铅 数 据 ， 难 点 是 怎样 使 数据 有 意义 。BSB 模型 利用 其 
内 在 的 聚 类 属性 通过 学 习 审 达 环 境 的 微波 结构 来 提供 帮助 。 聚 类 形成 在 BSB 模型 的 点 吸引 
于 周围 ( 即 单 位 超 立 方 体 的 稳定 角 点 )， 每 个 点 吸引 子 代 表 一 个 特定 的 发 射 器 。 这 样 ，BSB 模 
型 怠 可 以 识别 一 个 特定 发 射 髓 所 产生 的 脉冲 ， 


14.11 HAMER I 


对 于 一 个 包含 两 个 神经 元 的 BSB 模型 ， 图 14- 23 给 出 试验 的 结果 .，2 x 2 ASE WE 
[0.035 | 
- 0.005 0.035 
Hay Se REP BIE ae a, FP A 14.75). 
图 14-23 的 四 个 不 同 部 分 分 曾 对 应 初始 状态 x0) 的 四 种 不 同 的 赋值 ， 如 下 所 未 ; 
(alxf0) = [0.1 0.2]? 
(b)x(0)=[-0.2 0.3]? 
(c)x(O)=[-0.8 -0.41’ 
{d)x(0) =[0.6 0.1)’ 
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PST EHR DX Sak Fee i os P| GT RY A Bo RAR AS HE RRE 
HRSA, KREASI TRE AR RE W({n) 随 着 迭代 次 数 oo 的 增加 而 增加 ， 直 到 网 络 
状态 Xt) 终止 在 一 个 固定 点 吸引 子 ( 即 一 个 2x2 正方形 的 角 点 )， 此 吸引 子 属于 那个 吸引 
fm. 特别 有 趣 的 是 图 14-231 中 的 轨迹 : 初始 条 件 x(0) 在 第 一 象限 ， 然 而 轨迹 在 第 四 象限 终 
止 于 骨 点 ( +1, 一 1)， 轩 为 那 就 是 合适 的 吸引 和合 中 点 吸引 子 所 在 的 地 方 。 


(—], +1) | (41.41) {-1,+1) HELL) 


i 



















hn = 
ier 
hel 
Ep 

re 








图 14-23 ”BSB 模型 计算 机 实验 的 雪线; ADS 山 的 结 杂 对 应 于 不 同 初 始 条 性 


14.12 FARS TAE 


到 有 目前 为 止 ， 在 我 们 讨论 的 神经 动力 学 中 ， 集 中 于 由 国定 点 吸引 子 所 刻画 的 非 线性 动力 
学 系统 的 行为 。 在 这 一 节 考 虑 一 种 称 为 奇异 吸引 子 的 另 一 类 吸引 子 ， 它 们 刻画 阶 数 高 于 2 208 
某 种 非 线 性 动力 学 系统 。 

一 个 奇异 吸引 子 表现 出 高 度 复杂 的 混乱 行为 。 使 研究 奇异 吸引 子 和 混沌 特别 有 趣 的 是 ; 
因为 系统 运行 是 由 固定 规则 所 支配 的 ， 所 以 系统 是 确定 的 。 然 而 这 样 一 个 只 有 少数 几 个 自由 
上 的 系统 却 有 如 此 复杂 的 行为 以 至 于 它 看 起 来 是 随机 的 。 确实 ,随机 性 在 以 下 意义 上 是 基本 
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的 ; — Aie ME (chaos) BY la] RRS A BP SRE PEE Sos E ERAL. SAT, BIR — PAE 
随机 现象 ， 一 个 泥 汪 系统 所 展示 的 随机 性 并 不 随 着 收集 和 信息 的 增加 而 减少 。 原则 上 ， 一 个 泥 
学 系统 未 来 的 行为 完全 由 它 的 过 去 所 沁 定 。 但 笑 际 于 ， 初 始 条 件 选择 的 任何 不 确定 性 ， 无 论 
是 多 人 么 小 ， 随 着 时 间 将 指数 增加 。 这 样 即使 个 混沌 系统 的 动态 行为 在 短期 内 可 以 预测 ， 却 
不 可 能 预测 系统 的 长 期 行为 。 因 此 ， 一 个 混 症 时间 序 询 表 现 这 样 一 种 矛盾 : 它 的 产生 是 由 一 
修 确证 动态 系统 支配 的 ， 状 而 它 看 起 来 却 是 随机 的 。 一 个 混沌 现象 的 这 种 属性 最 初 是 由 
Lorenz 在 发 现 一 种 吸引 也 时 所 强调 的 ， 并 以 他 的 名 字 稼 名 (Lorenz,1963) 。 

企 一 个 非 线 性 动 意 系统 中 ， 当 鹃 引子 中 只 有 相近 初始 条 件 的 不 局 轨迹 随 着 时 间 增 和 抒 而 逐 
渐 分 离 时 ， 我 们 就 说 系统 具有 一 个 奇 基 吸引 子 (strange attractor), 并 且说 系统 本 身 是 混沌 的 
(chaotice)}。 换 名 话说 ， 使 得 一 个 吸引 子 奇异 的 本 质 属 性 是 对 初始 条 忻 的 敏感 依赖 。 这 时 ， 租 
感性 意味 善 如 果 两 个 相同 的 非 线 性 系统 开始 于 稍 有 差 购 的 初始 条 件 ， 即 分 别 为 和 X+E， 这 
里 g 是 一 个 非常 小 的 最 ， 它 们 的 动态 状态 在 状态 空间 中 会 相互 散 上 三， 并 且 它 们 的 间隔 平均 而 
让 将 按 指数 培 加 。 
混沌 动力 学 的 不 变 特征 

两 个 主要 特征 分 数 维 数 (fractal dimensions) $H Lyapunov 指数 ， 已 经 成 为 一 种 温 注 过 程 的 分 
类 囊 。 分 数 维 刻 男 一 个 奇异 吸引 子 的 几何 结构 。 本 语 " 分 数 ”(fractal) 是 由 Mandelbrot(1982) 提 
出 扒 。 不 像 整 数 维 数 (如 二 维 平 面 、 三 维 空 间 )， 分 数 维 数 并 木 是 整数 。 对 于 Lyapunov 指数 ， 
它们 质 述 吸引 子 的 雪 道 如 和 何 随 动 态 系统 的 演化 而 拓 动 。 这 两 个 混沌 动态 系统 的 不 变 特 征 将 在 
FAE., AA AER: 一 个 混沌 过 程 的 分 数 维 数 和 Lyapunov 指数 在 该 过 程 坐标 系统 的 
省 谓 非 线性 亚 换 下 保持 不 变 {Abarhanal 1996) 。 

分 数 维 数 
ASE — PARISI, EE d 维 状 态 空 间 的 动力 学 出 

xin + l) = Flix(n)j,n = 0,1,2, (14.80) 
描述 ， 它 是 式 (14.2) 的 离散 时 间 形 式 。 通 过 次 置 1 = nAt， 这 很 容易 看 出 ， 其 中 A: 是 采样 周 
期 ,假定 At 是 够 小 ， 我 们 可 以 相应 地 设置 

x(t) = [xCnAi + At) - xinAgz) | 
这 样 ， 我 们 可 以 得 到 式 (14.2}) 的 离散 时 间 拱 式 如 下 . 

R[xCaAe + At) —x(nAt)] = F(x(nAt)) ”对 很 小 的 Ai 
ATARA, At =1 并 对 项 进行 草 新 排 州 ， 得 到 
xin + l) = x(n) + F(x(n)) 

巧 能 写成 式 (14.80) 的 形式 ， 欠 要 简单 地 重新 定义 癌 量 人 秆 孙 数 FO) 

回 到 式 (14.830)， 很 定 我 们 在 绒 引 子 的 轨道 上 或 附近 的 一 个 在 置 ¥ 处 构造 半径 为 rz 的 小 
ER. ABA, BOTS S|! Te EASE SAY S oA ( natural distribution) 如 下 : 

p(y) = lim $ Dè ~ x(n) (14.81) 


pa) d 维 delta RL, N 是 数据 点 的 个 数 。 注 意 六 在 用 法 上 的 变化 。 自 然 分 布 p(y) 对 
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Tl go TC VS mm EE | s aa as an 





PT RRS TE A BR — PSS E PRO PL E EAF. Ae, FEIJE A 
ES ASR LE LAR f(y BAS Of A ERA 


Ff=| fplyay (14.82) 


— ARR BRR fy) EERI Be a 4D ROE s TF o HERA BIA Bday E 
化 。 注 意 d 维 球 所 占 的 空间 体积 正比 于 mw”， Bk, RE PRA a PRSI FEBS 
度 在 小 距离 范围 内 如 何 变化 ， 我 们 可 以 了 钥 吸 引子 的 维 数 。 

球 的 中 心 y 和 在 时 刻 时 的 点 xz) 之 间 的 Euclid ESE fly-x(n) ||. Ak, ak | y 
~x(n) l| <r, RF r- |ly—x(n) l >0， 则 点 x EEI r BORA. AE, ATHE 
ETEM FRAR Fx) 可 以 写成 一 般 形 式 


fx) = (ya X- ly -x o) (14.83) 
其 中 g 是 一 个 整数 ，6(.) 是 由 
l,~> Ü 
aaka lo. < 0 


iE OC HY Heaviside 3 4K , 
将 式 (14.81) 和 (14.83)} 代 人 (14.82)， 得 到 一 个 新 的 依赖 于 q 和 的 函数 ， 所 示 ， 


g-i 


clan) = [T (H Dor y-o ID) (A D- xa) ay 


Alit, PIHI delia 函数 的 筛选 (siftng) 性 质 ， 也 就 是 对 某 些 函 数 OEA 
[Ey - x(n))dy = g(x(n)) 
并 交换 求 和 顺序 ， 可 以 重新 定义 吸 数 C(g,7) 如 下 
Cr) = 市 > [a 366, ~ x(n) — x() |) (14.84) 


函数 C(g,r) 被 称 为 相关 函数 (correlation fonction)! , Et FASE RE EMR FERS x(n) #0 x(k) 
UES r 阿 开 的 概率 。 在 式 (14.84}) 的 定义 中 数据 点 的 总 数 N 假定 很 大 。 
RAR Clq. RSF RSPR. RAE, CER PRE PE > 很 小 时 
Clq. RTH. 2 MERAAH 
Clgsr) = ft (14.85) 
fax, FY D, 称 为 吸引 子 的 分 数 维 数 ， 假 定 它 是 存在 的 。 在 式 (14.85) 两 边 取 对 数 ， 得 到 
D, 的 正式 定义 


_ p Jog gsr) 
D, = lim 77 aa (14.86) 


然而 ， 由 于 通常 仅 有 有 限 个 数据 点 ， 半 径 r 必须 恰好 足够 小 ， 使 得 有 足够 的 点 落 在 球 内 。 对 
一 个 给 定 的 了 7， 可 以 根据 Cig, r EA logr 的 线性 区 数 的 斜率 确定 分 数 维 数 记 ， 

对 =2， 分 数 维 数 D, 的 定义 具有 一 个 适宜 于 可 靠 计算 的 简单 形式 。 所 得 维 数 D, 被 称 
为 吸引 了 于 的 相关 维 数 (comelation dimension) ( Grassberger and Procaccia, 1983). #H#3¢ SER RE 
有 动 芒 系统 的 复 条 性 ， 并 且 限 定 描述 该 系统 所 需 的 自由 度 。 
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Lyapunov 指数 

Lyapunov 招数 是 描述 吸引 子 未 来 状态 不 确定 性 的 统计 量 。 更 具体 地 ， 它 们 量化 在 移 问 吸引 
PRT SBS THA oP SF A, Be xO EMRI, x(n), n =0,1,2---| A RE 
B. 考虑 从 初始 条 件 (0) 19) AI Be) By OFT ERARA aR, io RL 
Hg ILS iy a)n =0,1,2,…| 从 未 受 扰动 轨道 1x(n),n =0,1,2…| 的 无 窃 小 偏 移 的 演化 。 
frase, HEH y(n) | yin) | 定义 胃 道 从 x(n) 的 无 穷 小 偏 移 。 当 | (na > || yCo) 时， 上 比 
H y(n)” jl y(O) | 为 无 穷 小 偏 移 的 增长 因子 ; 当 Il y(n) < 上 y(0) 上 时， 它 为 无 穷 小 仿 移 的 缩 
减 因 子 。 对 初始 条 件 x( 0) ARE BEE oo = y(O)/ || yCO) |l, Lyapunov 指数 被 定义 为 : 


A(x(0),a) = lim Hoel e ) (14,87) 
一 个 d HEE FESC-A d 个 Lyapunov 指数 ， 可 为 正 、 负 或 0。 正 的 Lyapunov 指数 说 明 状态 空 
癌 中 一 各 道 的 不 稳定 性 。 换 名 话说 ， 正 的 Lyapunov 指数 导致 混沌 过 程 对 初始 条 件 的 敏感 性 。 
为 一 方面 ， 负 的 Lyapunov 指数 控制 轨道 中 瞬 态 的 豪 减 ,一 个 为 0 的 Lyapunov 指数 表明 用 以 产 
生 混 测 的 回 有 的 动态 系统 可 用 一 个 联 立 的 非 线 性 微分 方程 组 描述 ， 即 是 说 该 混沌 过 程 是 一 个 
流 。 TE d 维 状 态 空 间 中 体积 依 epl LOA + 和 +… + 和 a)) 变 化 ， 这 里 工 是 未 来 的 时 间 步 数 。 因 
此 对 一 个 耗 融 过 程 ， 所 有 Lyapunov 指数 之 和 必须 是 质数。 这 是 状态 空间 的 体积 要 随时 间 增 加 
而 缩减 所 必须 满足 的 条 件 ， 它 是 物理 实现 的 一 个 要 求 。 
Lyapunov 维 数 


给 定 Lyapunov 谱 和 ,和 ，… ,Xa。，Kaplan and Yorke(1979) 提 出 了 -个 奇异 吸引 子 的 Lyapunov 
oe Se TE MUTT 


D, = K + ==- (14.88) 
其 中 KERE PAARE, 
> > OAD, <0 
通常 ，Lyapunoy 维 数 D, 和 相关 维 数 D, 的 大 小 大 体 相 同 。 这 和 是 混沌 过 程 的 一 个 重要 属性 。 也 


就 是 说 ， 昌 然 Lyapunov 维 数 和 相关 维 数 是 用 完全 不 同 的 方式 定义 ， 但 对 一 个 奇异 吸引 子 ， 它 
们 的 值 是 非常 接近 的 。 


混沌 过 程 的 定义 


住 整 个 这 一 广 中 我 们 说 到 了 混沌 过 程 ， 但 没有 正式 定义 它 。 根 据 我 们 对 Lyapunov 指数 的 
了 解 ， 可 以 给 出 如 下 定 艾 : 

一 个 混沌 过 程 是 由 一 个 非 线 性 确定 系统 产生 的 ， 它 至 少 有 一 个 正 揭 Lvwapunoy 指数 。 
皇 少 有 一 个 正 的 Lyapunov 指数 是 “对 初始 条 件 敏 感性 ”成立 的 必要 条 件 ， 对 初始 条 件 敏感 是 一 
个 奇 开 吸 引子 的 特点 。 
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最 大 的 Lyapunov 指数 也 定义 一 个 混沌 过 程 的 可 预测 范围 。 特 别 地 ， 一 个 混沌 过 程 的 短期 
可 预测 性 近似 等 于 最 大 Lyapunov 指数 的 倒数 (Abarbanal,1996)。 


14.13 动态 重 构 


动态 重 构 可 以 定义 为 映射 的 辨识 ， 该 映射 对 一 个 未 知 的 m 维 动态 系统 提供 异型 。 这 里 ， 
我 们 的 兴趣 是 对 一 个 己 知 为 混沌 的 物理 系统 产生 的 时 了 间 序 列 进行 动态 建 模 。 换 句 话 说 ， 给 定 
一 时 间 序 区 1y(n) 人 2 ， 我 们 希望 建造 -- 个 模型 米 捕 狼 产 生 可 观察 y(n) 的 潜在 动力 学 、 如 我 
们 在 前 面 -一 节 开 头 指 出 的 那样 ，wW 代表 样本 大 小 。 动 态 重 构 的 主要 动机 是 从 这 样 一 个 时 间 
序列 中 得 到 实际 忘 义 ， 从 而 绕 开 对 流 在 动力 学 的 详细 数学 知识 的 需要 。 感 兴趣 的 系统 一 般 太 
复 水 以 至 二 不 能 用 数学 方式 刻画 它 . 我 们 仅 有 的 可 用 信息 包 会 在 对 系统 的 一 个 可 观测 量 进行 
测量 所 得 到 的 时 间 序 列 内 ， 
动态 重 构 理 论 ”* 最 基本 的 结果 是 一 个 称 为 延迟 - 散 入 (delay-embedding) 定 理 的 几何 定理 ， 
该 定理 是 出 Tokens(1981) 提 出 的 ，Takens 2 lE — A LIEH BR. HERF ER A Ap BR AF ( delay 
coordinate map) TAAI (predictive) f Æ, MAG ERE ea AS RACH aT es 
的 时 间 序 列 构造 的 。 特 别 地 ，Takens 证 明 ， 如 要 动态 系统 和 可 观 浏 晤 是 -- 般 的 (generic)}， 那 
么 从 一 个 d 维 光 滑 紧 流 形 到 这 ”的 延迟 坐标 映射 在 该 流 形 上 是 微分 同 胚 {diffeomorphism )， 
这 里 d 是 动态 系统 状态 空间 的 维 数 {微分 同 有 是 在 15.3 节 讨 论 )。 
为 了 用 信号 处 理 术 十 对 Takens 定型 作 解 释 ， 首先 考虑 一 个 未 知 的 动态 系统 ， 该 系统 在 
离散 时 间 的 演化 由 非 线 性 差分 方程 
x(n+1) = F(x(n)) (14.89) 
描述 ， 其 中 xtn) 是 系统 在 时刻 n Id REDE, FOOR ARA a BEER 
AA l RSC BYTE APA | y(n) BREE x(n OF :; 
yin} = gix(n)) + vín) (14.90) 
其 中 g(+ 22 PA, v(m ANTES, E v(mn) 解 释 交 在 观测 y(n) 中 的 不 完全 和 
个 焰 确 的 综 谷 戏 来 。 式 (14.89) 和 (14.90) 措 述 动 态 系 统 的 状态 空间 行为 。 根 据 Taken 定理 ， 
多 变量 动态 系统 的 几何 结构 当 y(n)=0 仙 可 以 从 新 向 量 


Yatn) = lyn) yle —- oe yn — (D -DoY (14.9]) | 


构成 的 D AEST PME y(n) eR, EP ce PRA LRA RER 也 就 是 
ie, SAAT al n, 给 定 观察 值 y(z)， 它 各 未知 动 态 系统 的 一 个 可 观察 值 ( 分 其) 有 
X, BE Dz2d+1, H D HNR yofn) 动 态 重 构 是 可 能 的 ， 其 中 心 是 系统 状态 空间 的 维 
Be We ey Eee SRR AA - 延迟 定理 。 对 动态 重 构 来 说 ， 条 件 De 2d + 1 是 充分 的 
(AR EME MN, Sah D 的 过 程 称 为 嵌入 。 能 够 实现 动态 重 构 的 最 小 的 整数 DRAKA 
as, JAD, 表示。 

HRA — 35 Ee BAAS BR oy, (ny, (n+ 1) 的 演化 服从 原始 状 
态 空 间 中 未 知 动 态 系 统 x(n xna+]) 的 演化 。 也 就 是 说 ， 不 能 观察 的 状态 向 量 x(n) 的 许 
多 重要 属性 可 以 在 由 yr (rn) 定义 的 重建 空间 中 毫 无 疑义 地 得 到 。 然 而 ， 为 了 获得 这 个 重要 结 
A, FT RARER D 和 归 一 化 级 人 延迟 z 的 可 靠 舍 计 ， 如 下 综述 ; 

* FIR De2d + 1 使 得 解除 吸引 子 一 个 轨道 的 自 相 交 成 为 可 能 ， 这 是 出 现在 轨道 
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$e 32 El (EAT MA., RAIER Ds 可 以 小 于 24 +1, HEARD Bak AAD 
WUE BEAT Deo 合计 De WHU EARTE Abarbanal( 1996) Tei AVR RAB HE 
TELAT SS, ARRAS RGA EB, WER dal. 然后 d =2，-…, 如 
ASS FRAT CA a7 ab Se Ie RE, AE SS E a Bl E A fe a 
yei nA" AAR Be") OER LIE EOC a A ERY 应 的 估计 。 

* RAE, EIR - x ATE HP ORE RI — RAIER t MER, REL, RA 
用 时 则 序列 无 限 长 ， 它 允许 用 任 柯 的 tr， 然而 ， 实 际 上 我 们 只 能 在 有 限 长 度 N 的 观 
察 数据 土工 作 。 选 择 + 的 正 悄 方法 是 认识 到 归 一 化 要 人 延迟 ft 对 y(n) 和 y(n -+ 应 
是 够 大 ， 使 它们 基本 上 独立 ， 这 样 才 能 作为 重建 空间 的 坐标 ， 但 也 不 能 使 它们 完全 
独立 ， 以 致 设 有 任何 联系 。 满 足 这 个 要 求 的 最 好 办 法 就 是 选择 特定 的 rz 使 得 (nn) f 
《一切 之 间 的 至 信息 狭 得 它们 第 一 个 最 小 全 (Eraser,1989)。 互 信息 在 第 10 BHC. 


递归 预测 


从 表面 订 论 中 千 道 ， 动 态 重 枸 问题 可 以 解释 为 恰当 地 表示 信和 号 动力 学 ( 钳 人 步骤 ) 和 建造 
一 个 尖 测 贞 草 ( 识 齐 步骤)。 因 此 ， 实 际 上 我 们 用 下 面 的 网 络 拓扑 结构 来 进行 动态 建 模 。 
© 短期 记忆 (例如 延迟 线 记 忆 ) 结 构 实 现 铸 人 ， 由 此 根据 可 观 赛 的 y(n) 和 它 的 延迟 形式 
来 定义 重建 向 量 Y(tn); LAQA) 
”。 训练 作为 单 步 预测 器 ( 如 神经 网 络 )? 的 多 输 人 单 输出 (MISO) 自 适 应 卡 线性 系统 ， 用 它 
识别 未 知 上 映射 和 图" 一 网 ， 定 义 如 下 ， 
Yn +1) = flyg(n)) (14.92) 
起 {4.2}) 朱 述 的 预测 映射 是 动态 建 檬 的 中 心 问题 . —H ERRE, E Yal n) yrin +l) 
TROA, HEMER Ae th x(n x(n +1), 
现在 ， 我 们 设 有 一 个 严格 的 理论 来 帮助 我 们 决定 非 线性 预测 器 是 否 已 成 功 地 识别 这 个 未 
AGRA f。 在 线性 预测 中 ， 最 小 化 预测 误差 的 均 方 值 可 以 得 到 一 个 精确 的 模型 。 然 而 ,一 个 
混沌 时 间 序 列 不 同 。 同 一 个 吸引 子 的 两 个 轨道 在 每 次 采样 基础 上 部 有 很 大 的 不 同 ， 所 以 最 小 
化 陡 测 误差 的 均 方 值 对 一 个 成 功 的 映射 仅 居 必 贤 条 件 而 
不 是 充分 条 件 ， 
引子 的 全 局 属性 ， 所 以 它们 应 该 可 以 基 断 动态 建 模 的 成 





功 与 否 。 因此， 检验 动态 建 模 的 一 个 实际 方法 是 在 奇异 0 biii 
Aal TEHE, AER A ERARA AA 图 14-24 TRARA SE 
治 系 统 ， 如 14-24 AA AR, ARR EER AK RA 中 用 王选 代 预 测 的 单 步 预测 器 


或 递归 预测 . 一 日 初始 化 完成 ， 该 自治 系统 的 和 输出 就 是 
玛 态 重 构 过 程 的 一 个 实现 ， 这 当然 要 假定 预测 回 开 始 时 已 被 正确 地 设计 。 
我 们 说 由 图 14-24 描述 的 自治 系统 进行 的 动态 重 必 是 上 成功 的 ， 如 果 下 面 的 两 个 条 件 成 立 
【Haykin and Principe, 1998) : 
© 短期 行为 。 一旦 初 怒 化 完成 ， 在 一 段 时 间 内 图 14-24 PR Pl yn) | BERR 
原来 的 时 间 序 列 1y(n)}， 这 上 段 时 间 平 均等 于 从 过 程 的 Lyapunov 谱 确定 的 可 预测 范围 。 
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。 KHA., ABEND y(n) ARSE nE RAMARRI FFEA yn) it 
Be SAS AE E A HDA 
AS FIRE ASRS RATA, Te TOE ARB RSIS RARER, OH 
FEF tht 4-40 ta SE AE AE: A EF Lyapunov ERHI Lyapunov 谱 构 成 的 框架 ee 014.88). 
Lyapunov 维 数 应 该 和 相关 维 数 的 值 相 近 。 


递归 预测 的 两 种 可 能 的 形式 


式 (14.91) 定 义 的 重建 回 量 yr (nn) 的 维 数 为 D: BER D MRAM ED, AS. BR 
序 散 入 的 延迟 线 记 忆 的 太 小 是 cD, (ARERR ICI RE REE OD, 个 输出 (重建 空间 的 维 
PO: 也 就 是 说 ， 用 个 相等 间 卫 的 抽 头 表示 稀疏 连接 。 
另外 ， 也 可 以 把 重建 问 量 y(n) 定 义 为 -- 个 完全 的 m 维 向 量 
yain) = lyin}, ylin oy yin - m+ DI (14.93) 
其 中 m 是 一 个 整数 ， 和 定义 为 
m = Det {14.94} 
第 二 种 重建 向 量 yx (nn) 的 形式 比 式 (14.91) 提 供 的 形式 对 可 预测 模型 提供 更 多 的 信息 ,因此 可 
能 产生 一 个 更 精确 的 动态 重 均 。 然 而 ， 这 现 种 形式 有 一 个 共同 的 特点 : 它们 的 组 成 都 由 能 人 
维 数 D: 的 知识 惟一 定义 。 在 任何 情况 下 ， 明 智 的 方法 是 用 最 小 允许 的 值 D， 也 就 是 De, 
来 最 小 化 如 性 噪声 y(n) 对 动态 重 构 质 量 的 影响 。 


动态 重 构 是 一 个 不 适 定 的 过 滤 问 题 


由 于 以 下 一 个 或 多 个 原因 ， 动 态 重 构 实 际 上 是 一 个 不 适 定 的 逆 间 题 ( 道 问题 适 定 的 条 件 
AA SEPTIC). Bc, BHAA AER ERE. Bo, nme 
Pea Efe AS ALLE BERR EO AS; 因此 ， 惟 一 性 标准 被 玻 坏 。 第 三 ， 不 可 避免 
地 出 现 加 性 噪声 和 观察 时 间 序 列 的 某 种 不 精确 都 会 增加 动态 重 构 的 不 确定 性 。 特 别 地 ， 如 果 
噪声 水 平 太 珊 ， 连 续 性 标准 也 可 能 被 破坏 。 那 人 么 怎么 使 动态 重 构 问 题 适 定 呢 ? BRET 
BAT MA — 输出 映射 的 先 验 知识 的 某 种 形式 作为 主要 要 求 。 换 句 话说， 在 预测 模型 的 设计 
中 ， 为 了 解 次 动态 重 构 癌 题 需要 引 人 某 种 形式 的 限制 (例如 输入 - 输出 映射 的 光滑 性 7。 满 足 
这 个 要 求 的 有 效 方 法 是 用 Tikhonov 的 正则 化 理论 ， 这 也 在 第 S 音 讨论 。 

男 一 个 沉 要 考虑 的 问题 是 预测 模型 以 足够 精度 解决 逆 问 题 的 能 力 。 在 这 个 背景 下 ， 用 神 
乏 网 络 建造 预测 模型 是 合适 的 。 特 别 地 ， 多 屋 感 若 兹 或 径 同 莽 胃 数 网 络 的 通用 让 近 特 性 意味 
荐 我 们 利用 具有 适当 规模 的 这 各 或 那 种 神经 网 络 可 以 注意 重建 精度 的 问题 。 另 外 ， 和 由 于 刚才 
说 有 明 的 理由 我 们 需要 正则 化 的 解决 方法 。 理 论 上 ， 多 层 感 知 器 和 和 径 癌 基 消 数 网 络 者 适宜 正则 
化 的 使 用 ; 实际 上 ， 我 们 发 现在 径 向 基 消 数 网 络 中 包括 正则 化 理论 作为 它们 设计 的 整体 部 
分 ， 在 数学 上 易于 处 理 。 所 以 ， 在 下 一 节 撒 述 的 计算 机 实验 中 ， 集 中 以 正则 化 的 径 向 基 函 数 
(RBF) 网 络 ( 在 第 5 章 描 述 ) 解 决 动态 重 构 问 题 。 


14.14 计算 机 实验 臣 


为 了 铀 明 动 态 重 构 的 思想 ， 我 们 考虑 有 三 个 联 立 常 微分 方程 组 的 系统 。 该 系统 由 Lorenz 783 
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(1963) 从 和 低 于 大 气 热 对 流 的 偏 微 分 方程 组 的 Galerkin SEGRE, CREAR HA 
系统 思想 的 一 个 主要 方程 组 。Lorens 吸引 子 的 方程 组 为 


Stt = -oz 人 1) + 54 人 上 
下 人 = (2 + rat) - y(t) (14.95) 





ew. Eon tele 


其 中 es，r Alb ELHRHJSH. LESAR o= 10, b=8/3, r=28, 
图 14-25 显示 在 两 个 具有 400 个 中 心 的 RBF 网络 上 上， 使 用 基于 Loen 吸引 子 的 rino 
的 市 风 声 时 间 序 列 实施 选 代 预测 的 结 昌 .信和 品 比 是 25 分 贝 。 在 图 14-25a 中 ， 网 络 的 设计 被 
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图 14-25 
aye SNR = +25 季风 的 Lorenz SRE AT be DAREA HAN Y= 400, m = 203 
bya. SNR = +25 分 内 的 Lorene 数据 的 无 正如 化 造化 预测 (CN = 400, m = 20) 
E a) Al bb) PSC ASCARIS, PRAMS 
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ENHE., FRAN 14-25b 中 ， 网 络 设计 未 钴 正则 化 。 图 14-25 的 这 两 部 分 清楚 地 表明 正则 化 的 
重要 性 。 在 没有 正则 化 的 情况 下 ， 图 14-25b 中 显示 的 动态 重 构 问题 的 解 类 方法 是 不 能 接受 
的 ， 因 为 它 不 能 近似 Loren RSF AY BIE Pe: 非 正则 化 系统 仅仅 是 一 个 殉 测 紫 。 为 一 方 
面 ， 图 14-25a 中 表示 的 动态 重 构 问题 的 解 类 方法 已 经 学 会 动态 系统 ， 因 为 根据 秋 代 预测 的 
网 络 输 出 和 Lorenz 吸引 子 在 短期 的 座 正 秀 迹 非常 接近 这 一 点 为 表 14-5 记录 的 结果 证 实 ， 
EPRE T SAHRO FAI Lorenz 数据 。 

(a) ACERS Lorenz 系统 

(b) {SEHE SNR = 25 分 贝 的 Lorenz 系统 

(co HE 14-254 fea Ber Lorenz AY [eB] FY y BY E Se ae he 
FA Hr ee Rt OE A SC Loen 数据 的 重建 数据 不 变量 相近 .， 偏 差 的 绝 
对 值 是 出 于 骨 人 重建 吸 弛 子 的 噪声 的 残留 影响 以 及 估计 程序 的 不 精确 。 贺 14-25 清楚 她 显示 
动态 建 模 比 预 测 有 更 多 东西 。 这 幅 图 以 及 很 多 不 包括 在 这 里 的 其 他 图 像 都 显示 出 正 训 化 RBF 
的 解 对 太 代 预测 过 程 所 用 的 吸引 子 上 的 初始 化 点 的 鲁 棒 性 ， 

从 图 14-25a 使 用 正则 化 得 来 的 下 和 奋 岗 点 观察 ， 是 值得 特别 注意 的 . 

1. 图 14-25a 的 重建 时 间 序 列 的 短期 可 预测 性 是 大 约 后 个 祥 本 。 从 无 噪声 Loren: 吸引 子 
的 Lyapunov 谱 计 算 的 理论 可 预测 值 是 100 个 样本 。 试 验 和 无 噪声 Lorenz 吸引 子 的 预测 范围 的 
帆 差 仅仅 显示 用 来 实施 动态 重 构 的 实际 数据 里 面 人 存在 噪声 。 从 重建 数据 计算 的 理论 可 预测 值 
范围 是 61( 表 14-5), ， 这 非常 接近 第 期 可 预测 性 的 试验 观察 值 。 

2. 一 旦 超出 短期 可 预测 性 的 期 限 ， 用 14-25a 中 的 重建 时 间 序 列 开 始 偏 高 真正 Loren H 
#| 于 的 无 曲 声 实现 。 这 基本 上 时 混沌 动力 学 的 一 个 现象 ， 也 就 是 对 初始 条 件 的 敏感 性 。 像 前 
面 提 到 的 那样 ， 对 初始 条 忻 的 敏感 性 是 混沌 的 一 个 标志 。 


表 14-5 FA Lorenz 系统 的 动态 重 构 试验 的 参数 小 阁 


(a) 3.9% # Lorenz 系统 
使 用 样本 数 : 35 000 
1. JA--d#R ATER, t=4 
2. RAS. Dye =3 
3. Lyapunov FES : 
A, = 1.566 7 
Ay = —O.031 4 
Az = —-22.3H05 4 
4. 可 预测 范围 = 100 个 样本 
Ch) AEX Lorenz 系统 : 25 4+ 0 SNR 
EHHA: 35 000 
1. 归 AERAR, t=4 
2. HATER, Dy =5 
3. Lyapunov 指数 ， 
A, = 13.268 9 
An = 3.850 2 
As = —3.1447 
Ay = — 18.008 2 
Ac = — 47.057 2 
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4. EjU be] = 12 “ee 

fc 用 图 14-250 HAE Lorenz MEE HO KR 
Te BEAR (ae Ha}: 35 000 

107 -bRAZEIR, t24 

2. ASEM, J =3 

3. Lyapunov 指数 ; 


Ay = 27.565 5 
Ag = ~O.627 5 
ly = -15.042 


4. Hf TAM at Ed Gi 个 性 本 


te: 所 行 的 Lyapunov 指数 的 单位 为 奈 特 /种 ， 如 第 lO DEMIR, +R MRR AN TARR, BA, 
在 情形 bt, A Be oy FE h Lyapunov 谱 的 大 小 和 正 Lyapunov fae AIE BEAR), 


m Fl A 的 选择 


炳 人 层 的 大 小 m 由 式 (14.94) 决 定 。 如 以 前 解释 的 那样 ， 推 荐 的 方法 是 根据 等 号 用 最 小 
的 允许 值 m 使 得 噪声 对 动态 重 构 的 影响 最 小 化 。 

归 一 化 髓 入 延 返 rt 的 估计 值 基本 上 不 受 噪 声 影 响 ， 适 宜 于 较 高 的 信 品 比 。 相 反 ， 噪 声 对 
RAME Dr 的 估计 愤 有 深刻 的 影响 ， 这 也 符合 直观 。 讽 如 ， 对 于 无 曲 声 Loren 吸引 子 ， 相 
关 维 数 是 2.01。 因 此 ， 我们 可 以 选择 能 入 维 数 De =3， 这 可 由 假 近 邻 方法 确认 。 归 一 化 岩 信 
延迟 为 +=4。 这 样 ， 用 式 (14.94) 的 等 号 可 以 得 到 动态 和 董 构 的 m = 12。 然 而 ， 对 于 一 个 有 品 
声 的 Lorenz 吸引 子 ， 其 中 SNR = + 中 分 由 ， 用 假 最 近邻 法 得 到 Dr =S， 用 互信 息 法 得 到 c= 
do EAM. UA) RRA REHAR S, REAR 14-25 中 有 了 噪声 动态 重 构 的 严 = 
20。 表 14-5 包含 归 一 化 能 入 延迟 t POR ABER Deo 

对 于 图 14-25a 中 用 到 的 正则 化 参数 A, EEM ENTA (generalized cross-validation, 
GCVD) 方 法 由 训练 数据 得 到 的 , 这 种 方法 在 第 $ 章 中 讨论 。 图 14-25a 中 所 用 的 入 值 ， 由 GEV 
方法 计算 ， 根 据 数据 的 不 同 在 最 小 值 10 “和 和 最 大 值 10 一 之 间 变 化 。 


14.15 ”小结 各 讨论 


这 一 章 的 很 多 材料 都 是 在 讨论 Hopfield 模型 和 BSB 模型 ， 它 们 都 是 作为 植 根 于 神经 动力 
学 的 联想 记忆 的 例子 。 这 两 个 模型 有 下 面 一 些 共 同 特点 ; 

”它们 都 使 用 正 上 反馈 。 

” 蕊 们 履 有 人 能量 (Lyapunov) 如 数 ， 因 有 的 动力 学 以 迭代 方式 使 能 量 函 数 最 小 化 。 

”它们 都 用 Hebb 学 习 规 则 进行 白 组 织 学 习 。 

. 它们 都 能 利用 吸引 子 动力 学 进行 计算 。 
很 自然 ， 它们 各 自 的 应 用 领域 是 不 同 的 。 

BSB 模型 固有 的 聚 关 能 力 使 它 很 好 地 用 在 数据 表示 和 概念 形成 上 。BSB 模型 最 有 趣 的 应 
用 可能 是 作为 网 络 的 网 络 (network of networks) 的 一 个 基本 计算 单元 ， 网 络 的 网 络 作 为 描述 入 
脑 内 系统 组 织 的 不 同 层 次 的 一 个 合理 模型 (Anderson and Sutton 1995)。 在 这 个 模型 中 ， 计 算 单 
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平均 激活 通信 ， 这些 局 部 网 络 设 计 为 通过 激活 模式 (向量 ) 和 其 他 局 部 网 通信 。 在 常规 的 神经 
网 络 中 神经 元 之 间 有 权 值 相连 ， 与 之 类 似 的 是 现在 我 们 用 一 组 交互 {interaction) 年 阵 来 描述 其 
个 局 部 网 络 中 吸引 子 之 则 的 看 合 。 局 部 网 络 基于 它们 的 内 部 连接 形成 聚 类 利 层次 使 得 它们 的 
结构 (anatomieal)j 连 接 是 柿 蚊 的 。 也 避 是 说 ， 局 部 网 络 在 内 部 的 连接 比 它们 之 问 的 连接 更 笛 
密 。 然 而 ， 聚 类 之 同 的 切 能 连接 是 富 于 动态 的 ， 这 部 分 起 关于 局 部 网 络 之 间 的 时 间 相 关 激 

对 比 之 下 ，Hopfield 模型 串 以 用 来 解 次 下 列 计算 问题 

1. 按 包 答 可 址 存储 ， 瑟 涉及 部 分 或 失真 的 模式 呈现 给 网 络 以 检索 存储 的 模式 。 在 这 个 
应 用 中 ， 一 般 过 程 是 利用 基于 McCulloch-Pitts 神经 元 (即使 用 硬 限制 激活 旺 数 } 的 离散 Hopfield 
模型 。 从 计算 的 角度 看 ， 建 造 一 个 按 内 容 导 址 存储 是 很 平凡 的 。 然 而 一 个 按 内 容 寻 直 存 储 的 
Hopfield 网 络 是 非常 重要 的 ， 因 为 它 以 全 新 的 方式 阐明 动力 学 和 计算 之 间 的 联系 。 特别 地 ， 
Hopfield 模型 展示 和 神经 生物 学 有 关 的 下 列 属 性 : 

© 模型 时 动力 学 在 一 个 高 维 状 态 空间 由 大 量 吸 引子 支配 。 

一 个 感 兴趣 的 点 吸引 子 ( 即 基础 记忆 ) 的 位 置 ， 可 以 通过 仅仅 使 用 该 吸引 子 位 置 的 不 

精确 换 述 初始 化 模型 以 及 允许 动态 地 演化 模型 状态 到 最 近 点 吸引 子 来 确定 。 

© 学 习 ( 即 模型 自由 参数 的 计算 ) 是 按 Hebb 规则 学 习 进 行 的 。 另 外 ， 这 稀 学 习 机 制 介 许 

新 的 点 吸引 子 按 希 望 的 那样 插 人 人 模型。 

2. 组 合 节 优化 问题 ， 这 类 问题 被 数学 家 称 为 最 难 的 一 类 。 这 类 最 优化 问题 包括 经 典 的 
旅行 商 问题 (traveling salesman problem，TSP)。 给 定 一 定数 量 城市 的 位 置 ， 假 定 在 一 个 平面 
E, 问题 是 找到 最 短 的 路 径 旅 游 完 所 有 城市 并 返回 出 发 点 。TSP 问题 陈述 起 来 很 简单 ， 但 却 
很 难 解 决 。 除 了 计算 每 条 可 能 路 径 的 长 度 并 选择 最 短 上 路径 外 ， 没 有 其 他 已 知 的 找 最 优 路 径 的 
方法 。TSP 问题 是 NP - % 44 (Hoperoft and Ullman,1979)。 在 一 篇 开创 性 的 文章 中 ， Hopfield 
and Tank(1985) 曾 述 基 于 联 六 一 阶 微分 方程 组 的 模拟 的 络 怎样 给 出 TSP 问题 的 解 。 具 体 地 ， 
网 络 的 权 值 由 旅行 中 访问 的 城市 间距 离 决 定 ， 该 问题 的 最 优 解 是 神经 动力 学 方程 (14.20}) 的 
一 个 固定 点 。 在 此 处 遇 到 的 困难 就 是 将 组 合 最 优化 问题 映射 到 连续 (模拟 } Hopfield 了 网络 上 。 
网 络 使 一 个 能 量 (Lyapunov) 蚂 数 最 小 化 ， 然 而 通常 的 组 合 优化 问题 要 求 满足 一 些 硬 的 约束 笨 
件 下 使 目标 肾 数 最 小 (Gee et al. ,1993)。 如 果 违 反 这 些 限 制 中 的 任何 一 个 ， 则 认为 解 是 无 效 
的 。 早 期 的 映射 过 程 是 以 特别 方式 建造 的 Lyapunov 函数 为 基础 的 ， 通 常用 一 项 表示 一 个 芍 
At. E 

E = E" 4 hE” + GE” + (14.96) 
表示 。 第 一 项 EMER BME A oe a TSP 路 径 的 长 度 ); 它 由 当前 的 问题 决定 。 剩 余 
的 项 cj EM, co EP，… 人 代表 惩罚 明 数 ， 它 们 的 最 小 化 潢 足 约 来 条件。 标量 ce c, EN 
PMT AR EF，EPY，… 的 常数 权 值 。 不 幸 的 是 ， 式 (14.96) 中 Lyapunov 阔 数 的 许多 项 
部 互相 干扰 ， 并 且 Hopfield 网 络 的 戌 功 与 否 对 cl ，c,，… 的 值 非常 敏感 (Gee et al. , 1993 ), 
AU SE ANP Pe, PER 28 REPO AE ee A EC Willson and Pawley, 1988; Ansari and Hou, 1997); 
在 Gee(1993) 中 询 出 用 连续 的 Hopfield 网 络 作 为 工具 解决 组 合 优化 问题 的 一 些 基 本 问题 ， 其 
中 报告 的 主要 发 现 可 以 概述 如 下 : 
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© 给 一 个 用 二 次 0- | RA ee. BORE PARE RB E 
接 的 方法 来 解决 这 个 问题 ， 求 出 的 解 不 违反 问题 的 任何 约束 条 件 。 

| 基于 复杂 性 理论 和 数学 规划 的 结果 ， 除 了 当 问 题 的 约 桌 条 件 有 可 能 产生 整理 狠 面 性 
(integral polytope) 的 特殊 属性 外， 证 明 不 可 能 迫使 网 络 收 全 于 一 个 有 效 的 、 可 人 解释 的 
组 。 用 几何 术语 来 说 ,一 个 多面 和 体 ， 即 -- 个 有 界 的 多 面 悚 (bounded polyhedron), ii] 
说 七 十 个 整 型 多 面体 ， 如 果 它 的 所 有 顶点 部 是 0~1 点。 即使 理 整 型 多 徊 体 时 ， 如 
A Pea EP 是 二 次 的 ， 则 问题 是 NP - 完全 的 ， 并 不 能 保证 网 络 能 产生 最 优 解 。 
这 类 问题 包含 TSP 向 题 。 不 过 ， 如 果 给 出 对 这 个 解 的 下 降 过 程 的 性质 ， 可 以 找到 一 
个 有 有效 解 ， 而 且 所 得 的 解 有 很 大 的 机 会 是 值得 信赖 的 。 

AS Fa E Hopfield 模型 ， 在 它 的 神经 元 之 间 使 用 对 称 连 接 。 这 样 一 个 结构 的 动力 学 和 
梯度 下 降 动力 学 燃 似 ， 由 此 保证 能 收敛 到 一 固定 点 。 然 而 ， 人 脑 的 动力 学 在 两 个 重要 方面 和 和 
Hopfield 模型 不 同 : 

© 人 人 脑 内 的 神经 于 连 接 是 非 对 称 的 。 

* 人 脑 中 观察 到 据 沙 的 和 复 末 的 非 周 期 性 的 行为 。 
实际 上 ， 正 是 因为 人 脑 的 这 些 特点 ， 在 Hopfield 模型 之 前 关于 非 对 称 网 络 趾 的 研究 兴趣 已 有 
Rie T 。 

RN Ae SRT eR PES ER, PSE, RARE Re - 抑制 网 络 ， 它 的 神经 元 分 为 
两 个 群体 ， 一 种 是 只有 兴 禁 性 输出 ， 另 一 种 只 有 抑制 性 输出 。 这 两 种 类型 神经 元 之 间 的 连接 
是 上 反对 称 的 。 然 而 ， 同 种 类 型 神经 元 之 间 的 连接 是 对 称 的 。 在 Seung et al. (1998}) 中 考虑 了 这 
各 网络 的 动力 学 。 于 里 的 分 析 利 用 兴奋 - 抑制 网 络 和 梯度 下 降 - 梯度 上 升 动力 学 之 间 内 在 的 
相 亿 性。 这 里 运动 方程 在 茶 些 状态 变量 是 梯度 下 降 的 ， 对 号 一 些 是 梯度 上 升 的 。 结 果 ， 不 像 
禄 谋 下 降 动 力学 刻画 的 Hopfield 模型 ，Seung et ql.(1998) 所 考 虚 模型 的 动力 学 能 收 合 到 一 个 
固定 点 或 一 个 极限 环 中 ， 这 取决 于 网 络 参 数 的 选择 。 因 此 ， 在 Seung et al. (1998) HRR KIJE 
对 称 模型 代表 对 对 称 的 Hopfield 模型 的 进一步 发 展 。 


注释 和 参考 文献 
11] 一 个 非 自 治 (nonautonomous) 系 统 由 状态 方程 
Sxl) = Fix), D.x a) = x, 


EX., I—A A ARA, mE Fix), RMR 2, AE, TAARA 
样 ， 我 们 一 般 不 置 初 始 时 则 为 OC Parker and Chua, 1989). 
[2] 一般 好 ， 除 起 0444.11) 外 一 个 非 线 性 动态 系统 的 全 局 稳定 性 还 需要 径 向 无 界 条 件 (Slotine 
and Li, 1991) 
V(x) — æ 洒 ix] — æ 
成 立 。 由 具有 sigmoid Win AAAH RAEI Lyapunov APOR A AEE. 
[3] 我 们 给 出 一 个 吸引 子 的 严格 定义 如 下 {Tanford 1981; Lichtenberg and Lieberman, 1992) : 
状态 宝 间 的 一 个 子 集 ( 流 形 )WH 被 称 为 一 个 上 吸引 于， 如 果 : 
© 村 关于 流 保持 不 变 
。 在 流 中 ， 周围 有 一 个 ( 开 ) 邻 域 收缩 到 OM 
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。 并 的 所 有 部 分 部 不 是 及 态 的 
* M 不 能 被 分 成 两 个 互 不 相交 约 不 变 片 {piece) 
集中 点 火 (Integrate-and-Fire} 神 经 元 
式 t14.14) 的 加 性 模型 并 没完 全 抓 住 一 个 生物 神经 元 的 精髓 。 特 别 地 ， EAR OP EB 
位 里 编码 的 时 序 信息 ; 动作 电 体 在 第 1 章 给 出 售 可 的 定性 描述 。Heopfield(1994) 描 述 一 
个 动态 模型 ,通过 考虑 一 个 集中 点 火 神 经 元 捐 提 动作 电位 。 这 样 一 个 神经 元 的 运行 由 
一 阶 微 分 方程 

Cult) =- u(t) = uo) + 让 (1) 
描述 ， 其 中 u(t) = 神经 元 内 部 电位 ，0 = 神经 元 周 团 细胞 膜 的 电容 ， 民 R= 细胞 膜 的 汤 
BH (leakage resistance), i(¢) = 由 男 一 神经 元 注 人 人 当前 神经 元 的 电流 ，u = 当 CTA 
时 神经 元 减少 的 电位 。 在 每 次 内 部 电位 wtt) 达 人 钙 阐 值 时 产生 一 个 动作 电位 。 

动作 电位 被 看 作 蚌 Dirac dekal PEAR, ERA 
g(t) = de — ty a} (2) 

其 中 hns n=l, 2, 3, RRRA k 的 激活 动作 电位 的 次 数 ， 这 些 次 数 由 式 (1) 所 
fe Mo 


流入 神经 元 上 的 总 电流 的 行为 模型 化 为 
Zaa) s- RU) + Tyg (0 (3) 
其 中 如 为 神经 元 7 到 神经 元 RAMA, ERAI k 的 特征 时 间 常 数 ， 函 数 gG) 
(2) o 


A (14.4) IPE AY AL Aa TEE (3 — PE, PR, A g (tE (spiky) tE 
质 ， 而 代 之 以 g CAPS PRR, ARE a P. AHR 
个 合理 的 时 间 间 隔 肉 趟 13) 右 边 的 总 和 会 有 有 许 密 项 ， 并 且 我 们 只 关心 神经 元 天 点 火 率 的 
短期 行为 。 
Little 模型 (Little,1974; Little and Shaw, 1975) 40 Hopfield 模型 一 样 使 用 同样 的 权 值 。 然 而 ， 
它们 不 同 之 处 在 于 Hopfield BAAS FT AAX, T Little 模型 用 同步 (并 行 ) 动 力 
学 。 相 应 地 ， 它 们 订 示 不 同 的 收 伍 性 (Bmek,1990; Goles and Martinez, 1990)。 Hopfield 网 
绕 总 是 会 收 伍 色 一 个 稳定 状态 ， 而 Little 模型 总 是 会 收 合 天 一 个 稳定 状态 或 长 度 至 多 为 
2 的 极限 环 。 所 请 “极限 环 "是 指 网 络 状态 空间 的 长 度 小 于 或 等 于 2 的 环 。 
FERRERA 
A T AR Hopfield RETE ATEA A SHEE, LAPEH eee, 
也 许 到 目前 为 止 最 有 意义 的 改进 是 Morita(1993) 提 出 的 ， 它 应 用 于 Hopfield 模型 的 连续 
(模拟 ) 形 式 。 人 收 改 限制 在 一 个 神经 元 的 激活 图 数 wl: ) 上 上 ， 从 而 保持 网 络 作为 联想 记忆 
的 简单 性 。 上 其 林地 ， 网 络 中 的 每 个 神经 元 的 通常 硬 限 制 (hand-limiting) 或 sigmoid MYE A 
数 蔡 换 为 非 单调 汪 数 。 在 数学 形式 上 ， 这 个 激活 阻 数 由 两 个 因子 的 乘积 定 闵 ， 表 示 为 


_ {1- epl- av}\ (1+ rexpt(b({ vi- c)) 
pars (1 + exp(— ay) | + expl óil v l- yy) (1) 


HP o 为 讲 导 局 部 域 。 式 (1) 有 有 边 的 第 一 项 是 连续 Hopfield 模型 中 常用 的 sigmoid (AX Hf 
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EHAR., BMR Re ptv) 成 为 非 单调 的 。 第 二 项 中 的 参数 b 和 c 是正 的 常 
数 ; 参数 “通常 是 负 的 。 在 由 Morita 1993) 所 做 的 试验 中 ， 各 个 参数 赋值 如 下 : 
a = 50:6 = l5,¢ = 0.5:6 =— 1 
根据 Morita 的 研究 PATS eR HIE AA i A PS AY As AR a A A 
数 的 非 单 调 属性 。 
Morita 接 述 的 一 个 按 内 容 寻 址 存储 区 模型 有 黄 个 有 趣 的 性 质 (Yoshizawa et al., 1993): 
1. 对 由 浆 个 神经 玫 梅 成 的 网 络 ， 模 型 的 存 情 穿 芋 药 为 0.3 NOSTRRA N), EAH 
Hopfield 模型 的 相应 值 WA(2log 浆 ) 要 大 得 多。 
2. 模型 没有 出 现任 何 伪 状 态 (spurious state) ， 相 反 ， 当 它 不 能 焦 复 起 一 个 正确 的 记忆 模 
式 时 ， 网 络 状态 被 推 进 到 一 种 混沌 行为 。 混 沌 的 概念 在 14.13 节 中 讨论 。 

[7] 式 {14.84) 定 义 的 相关 函数 (gr) 的 思想 在 统计 上 已 知 是 从 Rényi{1970) 的 工作 得 来 
的 。 然 而 用 它 去 刻画 一 个 奇异 吸引 子 是 在 Grassherger and Procaccia( 1983) 中 提出 的 。 他 
们 最 初 是 讨论 相关 维 数 g =2 时 Cig, DRMA- 

[8] 从 一 个 时 间 序 列 里 用 独立 坐标 来 构建 动态 系统 首先 由 Packard et al. (1980) 提 出 。 然 而 ， 
这 篇 论文 并 没有 给 出 证 明 ， 用 的 是 “导数 “ 徐 入 而 不 是 时 间 - EGR A, I] - REG HR 
和 或 延 返 坐标 能 人 归功 于 Ruelle 和 Takens。 特 别 地 ，198] 年 Takens 发 表 了 一 篇 在 数学 
RRA a - 延 运 租 入 方面 的 文章 ， 它 应 用 于 吸引 子 为 曲面 或 类 似 环 面 ， 也 可 以 
参看 Maiié{1981) 在 同一 杂志 上 发 表 的 同一 主题 的 论文 。Takens 的 论文 对 非 数 学 家 来 说 
IRIE, Mane 的 更 难 仅 。 延 信 坐 标 映 射 的 思想 在 Sauer et al. (1991}) 中 得 到 提炼 。 在 这 
篇 论文 中 采用 的 方法 是 对 Whitney(1936) 和 Takensf 1981) 的 早期 结果 的 综合 和 扩展 。 

9] 将 生物 神经 网 络 看 成 一 个 出 现 振 葛 行为 和 行 波 的 非 线 性 动态 系统 已 有 很 长 的 历史 
( Wilson and Cowan 1972; Amari 1977a, 1977b; Amari and Arbib 1977): 也 可 LA 2 Carpenter 
et al. , (1987) 的 讨论 。 


习题 


动力 系统 

14.1 XTRAS io) Bh x(0) 作 为 一 个 动态 系统 的 平衡 状态 ， 重 述 Lyapunov 定理 。 

14.2 验证 图 14-8a 和 14-8b 的 框图 分 别 对 应 神经 动力 学 方程 (14.18) 和 (14.19)。 

14.3 考虑 一 个 一 般 的 神经 动力 学 系统 ， 它 依 束 于 未 指定 的 肉 部 状态 参数 、 外 部 动态 刺 
激 和 状态 变量 。 系 统 由 状态 方程 


dy. 
FA = o,(W.u,Xx), j 一 中 


EX, PE 多 代表 系统 的 内 部 动态 参数 ,向量 代表 外 部 动态 刺 油 ,x 是 状态 向 量 ， 
ERA 7 个 元 素 用 x ER. HFW. 的 值 和 在 状态 空间 的 某 些 运行 区 域 x(0) 的 值 ， 假 定 
FR) BI AE RS | Pineda, 1988b )。 讨 论 所 描述 的 系统 怎么 能 用 于 如 下 应 用 : 
(a) ESR SE, uo 是 输入 ，x(% ) 是 输出 
(b) BEKTI, x(0) 是 输入 ，xto ) 是 输出 
Hopfield 模型 
14.4 考 号 5 个 神经 元 组 成 的 Hopfield 网 络 ， 它 需要 存 赃 以 下 三 个 基本 记忆 : 
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Cas +hkhál- tlah 4l 
E dg I es E Le ee 
Be ede he ce he E 
Cal TPE RAR BY 5 x 5 SAMAR (A EP 
Cb) Fl eae Bri as A =P i EL, EL, 6 WEHA AIE. 
(o 旭 六 是 有 了 噪声 的 ， 它 的 第 二 个 元 奈 极 性 反 转 ， 研 究 网 络 的 检索 人 性 能 。 
14.5 研究 同步 更 新 时 习题 14.4 所 描述 Hopfield 网 络 的 检索 能 力 。 
14.6 《aa 证明 
人 
| 
| 
the -J AB 14.4 所 描述 的 Hopfield 网 络 的 基本 记忆 。 这 些 基本 记忆 和 习题 14.4 中 的 基本 记忆 
之 站 有 什么 关系 ? 
tb} 假 定 习 题 14.4 中 基本 记忆 & 的 第 一 个 元 素 被 损坏 ( 即 减少 为 0}),, 确定 Hopfield 网 络 
所 产生 的 结果 模式 。 比 较 这 个 结果 和 & RAI 
14.7 考虑 由 两 个 神经 元 构成 的 简单 Hopfield 网 络 ， 网 络 的 罕 租 权 值 矩阵 为 
we B al 
每 个 神经 元 的 偏 置 为 0， 网 络 的 四 个 可 能 状态 是 
[1 a ES =11 
(a 说明 状态 x, Al x, 是 稳定 的 ， 而 状态 x, Al x, 成 为 极 眼 环 。 用 下 面 两 个 工具 来 说 明 
1. 对 章 ( 稳 定性 ) 条 件 
2. fl A 
(马列 加 状态 x, A x, 的 极限 环 的 长 度 是 多 少 ? 
14.8 在 本 题 中 ,我 们 推导 式 (14.55)， 它 是 计算 按 内 容 寻 上 引 存 储 器 的 Hopfield 网 络 在 几 [8] 
平 无 错 情况 下 的 存储 容量 ， 
(8) 误差 录 数 的 渐进 行为 可 以 近似 描述 为 


rf tik 
e (y) vay TRAY y 


用 这 个 近似 证 明 式 (14.53) 的 条 件 概率 可 近似 为 





ere 
P(x», > O1 €,, =~4+]) œl- 
Tp 
其 中 p 32 7H REL. WEAR Re ERAAI es A A 
sat an ko oe 


(在 (中 公式 pa AY EEE PO Se, RULE Bg SR 
的 存储 容量 的 定义 ， (RI) EB: 相反 它 和 UN 相 比 必须 是 小 的 ， 其 中 N 
是 Hoptield 网络 的 大 小 。 证 骨 依 品 比 必须 满足 条 件 
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p > 2log, N 十 5 log, (2rp) 


(c} 利 用 从 (b) 中 得 到 的 结案 ， 证 明 为 了 大 部 分 基本 记忆 能 完全 恢复 所 要 求 信 品 比 的 最 小 
允许 仁 为 


Own = 2log, N 
相应 的 pau fe eZ? 
(DHOORE, ER 
N 
Mo ~ Plog, N 


正如 式 (14.55) 中 描述 的 那样 。 
(6 由 (dd 推导 的 存 情 容量 公式 是 基于 大 部 分 基本 记忆 是 稳定 的 ， 对 励 铺 误 的 存储 容量 给 
出 一 个 更 严格 的 定义， 我 们 要 求 所 有 基本 记忆 都 能 被 正确 地 检索 。 利 用 这 后 一 个 定义 ， 证 明 
RETF PATE Hopfield 网 络 中 的 最 大 基本 记忆 的 数目 为 (Amit 1989) 
“y -© 
™ = Alog N 
14.9 一 个 Hopfield PJ AY RES Bs BR HY RE A 
E =- > >; m? 
其 中 m, 代表 由 
nm, = d Eee v=il,2,--,# 
定义 的 重 登 ， 其 中 x, ERGE x 的 第 ;个 元 素 ，&, EERIE, 第 i 个 元 素 ，W 是 基本 
记忆 个 数 。 
14.10 设计 Hopfield 网 络 用 来 存储 两 个 基本 记忆 模式 (+1,+1,-1,+【,+1) 和 


+1, 一 1, +1, 一 1, + 1)。 网 络 的 突 甬 权 值 矩 阵 如 下 : 
0 0 0 0 


2 
0 
W=0 -2 0 -2 Q 
U 
0 


2 0 0 0 

(a) FoR W 的 特征 值 之 和 为 0。 为 什么 ? 

(b) 网 络 的 状态 空间 是 区 的 一 个 子 空间 。 详 细 说 明 这 个 子 空 间 的 结构 。 

Co} FAZER ICI SP ORAS Sid AM, RE WS SCAN. BWA SSE 
ARS ALTAR AS EIT A? 

(Beas 47 fn SP BR Re a Se SE, BT LA} deSilva and 
Attikiouzzel{ 1992) FA] 30 ) 

14.11 图 14-26 显示 一 个 非 单 凋 激 活 商 数 的 分 段 线 性 形式 。 用 这 个 近似 形式 的 Hopfield 
网 络 的 恢复 动力 学 由 


ali) =— v(t) + Wx(t),x€t) = sen(v(e)) - kvlt) 
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©, HIP v ERRERA FAWR, WERNEER, ERASME HE. -k 
E-A MRA RE. F vy EMTEA E 的 象限 
内 的 网 络 平衡 状态 ， 并 令 

KX = sgn(¥) 一 AV 
证 明寺 由 下面 一 个 条 和 件 所 刻画 (Yoshizawa et al., 1993). 


N 
(a) >) 2,8... = ), ee a ge 
c=] 


(b) Wik,= M 

(oael, bale Aa ra ay 

其 中 Ei , oo Tra Cy 是 存 情 在 网 络 中 的 基本 记忆 ， 
ELE 第 ;个 元 素 ， 元 EWS: CR, NEHA 
元 个 数 ， 图 14-26 


14.12 考虑 由 下 列 方 程 描述 的 简单 神经 动力 学 模 





A 
i + 
de ~~ %* 25 Pl) + = 1,2,-7,N 
描述 的 系统 总 是 会 收敛 到 一 个 惟一 的 点 吸引 子 ， 假 定 突 触 权 值 几 满 足 条 件 


4 l 
2, 24"; ~ (max | g |} 


其 中 g = dqj dv,。 考 查 这 个 条 件 的 正确 性 。 你 可 以 参考 论文 (Atiya, 1987)， 该 条 件 是 从 这 篇 
文章 导出 的 。 
Cohen-Grossberg 定理 

14.13 活 虑 式 (14.57) 定 六 的 Lyapunov 臣 数 。 如 果 式 (14.59) 至 式 (14.61) 的 条 件 满 足 ， 


uE AA piv} 
dE 
a EL 0.8 
14.14 424.108, 我们 通过 应 用 Cohen- -K | 


Wk 


Grossberg 定理 导出 了 BSB 模型 的 Lyapunov ef 
数 。 和 在 推导 式 (14.73) 时 ， 省 略 了 一 些 细 节 : 
请 写 出 这 些 细 节 。 

14.15 图 14-27 Bate SPR pw AY 
一 个 图 形 ， 该 函数 由 Morita( 1993) 提 出 ， 这 在 
广 释 [6j 中 讨论 过 。 这 个 更 数 在 构造 Hopfield 
网 络 时 用 于 代替 双 曲 线 正 切 力 数 。Cohen- 
Crosshbe 吧 定理 适用 了 这样 构 造 的 联想 存储 器 
如 ?请 说 明 你 的 埋 由 ， 


: 73l 





图 14- 27 
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SIs 动态 驱动 的 递归 网 络 


15.1 简介 


好 在 前 一 章 提 到 的 ， 递归 网 络 是 有 一 个 战 多 个 反馈 环 的 神经 网 络 。 反 馈 可 以 是 局 部 的 或 
全 局 的 。 在 这 一 童 ， 我 们 继续 研究 有 全 局 反馈 环 的 递归 网 络 。 

给 定 多 层 感 知 克 作为 基本 和 模块， 应 用 全 局 反馈 可 以 有 不 同 的 形式 。 反馈 可 以 从 多 层 感 知 
售 的 输出 神经 元 到 输入 层 。 还 有 另 一 种 可 能 的 全 局 反馈 是 从 网络 的 隐藏 神经 元 到 输入 层 。 当 
多 层 感 知 髓 有 多 个 隐藏 层 时 ， 全 局 反馈 的 可 能 形式 甚至 可 以 进一步 扩大 。 查 点 是 递归 了 网络 有 
E E AA E o 

A, EURA A TEAD EEH : 

© KAE 

a A- fart ae 

递归 了 网络 作为 联想 沁 忆 在 14 章 已 经 有 详细 叙述 。 这 一 章 我 们 将 研究 作为 输入 - LR 
射 网 络 的 用 途 。 无 论 用 途 怎 样 ， 研 究 递归 网 络 时 特别 关注 的 问题 是 它 的 稳定 性 ; 这 个 问题 在 
第 14 章 也 考虑 过 。 

由 定 饼 ,上 映 冉 网 络 的 输 人 空间 被 映射 到 输出 空间 。 对 于 这 方面 的 上 应用， 递归 网 络 依 时 序 
啊 应 外 部 应 用 的 输入 信号。 因此 我 们 在 这 一 章 里 可 以 称 递归 网 络 为 动态 驱动 递归 网 络 。 而 
E. 反馈 的 应 用 使 得 递归 网 络 获 得 状态 表示 ， 这 使 得 它 成 为 适应 于 不 同 应 用 的 工具 ， 例 如 非 
线性 预测 和 建 模 ， 通 信和 信道 的 自 适 应 平衡 ， 语 音 处 理 ， 设 备 控 制 以 及 汽车 发 动机 的 诊断 。 因 
Mt, BUA RIZA SEER 13 章 所 说 的 动态 驱动 前 馈 阿 络 的 -一 种 替代 。 

由 于 全 局 反馈 的 效益 ， 它 们 洋 际 可 以 运行 得 更 好 。 使 用 全 局 反馈 具有 大 大 减少 记忆 需求 
AREF. 


本 意 的 组 织 


本 章 分 为 四 个 部 分 : 体系 皆 构 ， 理 论 ， 学 习 算 法 和 应 用 。 第 一 部 分 包含 15.2 节 ， 讨论 
媚 上 归 网 络 的 体系 结构 。 

第 二 部 分 包括 15.3 节 至 415.5 节 ， 相 理 递 归 网 络 的 理论 部 分 。15.3 节 描 述 状态 空间 模型 
以 及 相关 的 可 控 性 和 可 观察 性 的 问题 。15.4 节 导 出 一 个 状态 空间 模型 的 等 价 模 型 ， 通 称 为 
有 外 部 输 人 的 非 线性 自 匠 归 的 模型 。15.5 节 讨 论 递 归 网 络 计 算 能 力 的 一 些 理论 问题 。 

第 二 部 分 包括 15.6 节 至 15.12 节 ， 讨 论 递 归 网 络 的 学 习 算 法 和 相关 问题 。 开 始 在 15.6 
攻 有 一 个 对 主题 的 综述 。15.7 TES 4 章 的 材料 基础 上 讨论 通过 时 间 的 反 向 传播 算法 。15.8 
节 讨 论 另 一 个 流行 算法 : 实时 递归 学 习 ，15.9 节 对 经 典 Kalman 滤波 理论 进行 简短 综述 ， 紧 
跟着 15.10 节 描 述 解 看 扩展 的 Kalman 过 滤 算 法 。15.11 节 给 出 了 后 面 这 个 算法 用 于 递归 学 习 
的 一 个 计算 机 实验 。 建 立 在 梯度 基础 上 的 递归 学 习 受 到 消失 梯度 问题 的 影响 ，15.12 节 对 此 
有 讨论 。 
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第 四 部 分 也 是 木 章 最 后 一 部 分 ， 和 包括 15.13 节 和 15,14 节 ， 过 论 弟 归 网 络 的 两 个 重要 应 


用 。15.13 节 讨 沦 系 统 办 识 。15.14 节 讨 沦 模 型 参考 自 适 应 控制 。 
在 15.15 节 以 一 些 最 终 评 论 结束 章 。 


15.2 RRA At 


ARTETAN, A ORAA EAER, ATOR, a 


种 着 重 于 全 局 反馈 的 一 种 特殊 形式 '。 


它们 有 如下 共同 的 特点 ， 


* 七 们 部 结合 一 个 静态 多 层 感 知 右 或 其 中 某 些 部 分 。 
© EPERRA HEE RAA NERE BEJ] 


输入 ~ 输出 递归 网 络 


图 15-1 显示 由 一 个 多 层 感 若 颖 的 卓然 推广 而 得 到 的 通用 递归 网 络 模 型 。 模 型 右 一 个 输 


人 被 应 用 到 有 9 个 单元 的 抽 头 延迟 线 
记忆 。 黎 型 的 单个 输出 通过 另外 了 个 
单元 抽 头 延迟 线 记 忆 反 馈 到 输入 ， 两 
个 抽 头 延迟 线 记 忆 的 内 容 被 用 于 反馈 
AIS EM aA A, Ra A YY 
AIG zfz) 代 表 ， 相 对 应 的 输出 用 
xfta+1i) 表 未 ;也 惑 是 输出 领先 输 人 
一 个 时 间 单 位 。 因 此 应 用 到 多 层 感 知 
证 输 大 层 的 信和 号 同和 量 的 数据 窗口 数据 
如 下 |; 
- 现在 和 过 去 的 输入 值 ， 即 
ulin) un-t), oe, un- 
4 + 1)， 表 示 来 自 网 络 外 部 的 
输 六 。 
* Fy ih WY MESA fA. BY vy Ca), 
v(n—-l),, y(n —¢ 41), 
在 此 基础 上 模型 输出 yfm + 
1 进行 回归 。 
AER 15-1 的 递归 网 络 称 为 有 外 
部 输入 的 非 线性 自 回 归 模 型 {noniinear 
autoregressive with exogenous inputs model, 
NARX )”, NARX 的 动态 行为 由 
7 十 1 = Fiylal yin- qg +l), 
i 
(15.1) 
ok, A PF BER ARETE 
线性 明 数 。 注 意 在 图 15-1 中 , DAR 


输入 
uN) 


输出 


“in ~ g+1) ee 


y(n ~ +1) 


yin -g +2) 





图 15-1 A pa A MJETE S EH NARX E 
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设 两 个 延迟 线 记 世 有 同样 大 小 的 5; EO- RE IO, NARX 模型 将 在 15.4 PAR. 
状态 空间 模型 


图 15-2 表示 另 一 种 通用 的 递归 阅 络 的 要 图 ， 称 为 状态 空间 模型 。 隐 藏 神经 元 定 多 网 络 

的 装 态 。 隐 藏 层 的 输出 通过 一 个 单元 延 返 模 芯 反馈 回 笨 和 人 。 输 和 人 层 为 反 侯 节点 和 漆 节 点 的 联 

合 。 网 络 是 通过 源 市 后 和 外 部 连接 的 ,用 于 将 隐藏 层 输 出 反馈 回 输入 层 的 延 运单 元 的 数目 决 

定 了 模型 的 阶 数 。m x LE) Bt uC RA. og x 1 E xm) 代表 隐藏 层 在 n 时 刻 的 输 
出 问 量 。 我 们 可 以 用 下 列 两 个 联 立方 程 组 描述 在 图 15-2 中 的 模型 的 动态 行为 ; 

x(n +1) = fOx(n),utn)) (15.2) 

y(n) = Cx(n) Grey 

这 里 FC +, + FE —-P AUR Re APE ER A ee, CR AW RMR A, KA 

藏 技 是 非 线 性 的 ， 但 输出 层 是 线性 的 。 

图 15-2 的 递归 阅 络 包括 所 个 特殊 的 递归 结构 作为 其 特例 。 例 如 ， 了 man( 1990) 撒 述 过 的 

企图 15-3 所 示 的 简单 递归 网 络 (simple recurrent network, SRN); Elman 232544 #09 15-2 Brag 
Seta AIR, BRS Ft By EERTE A TH AB EIR BGR. 





AAATRRE 
的 多 层 感知 器 
图 15-2 状态 空间 模型 
Elman 疝 络 包含 从 隐藏 层 神经 背景 单元 
72) h BA oo tE R H OY AY foe 
(context unit ) G2 [6] AY 8 VA Be He. 
i PE Ey R E FF Be He AP EL AT 


应 一 个 时 间 步 的 输出 ， 接 着 反馈 

加 输入 层 。 因 此 隐藏 神经 元 具有 

它们 以 前 激活 的 记录 ， 这 使 得 阅 

络 可 以 进行 通过 时 间 扩 展 的 学 习 aa ama 

任务 。 隐 藏 神经 元 也 馈 给 输出 神 

经 元 ， 输出 神经 元 给 出 在 外 部 激 图 15-3 简单 递归 网 络 (SRN) 

励 作 用 下 网 络 的 啊 应 。 由 于 隐藏 神经 元 反馈 的 特性 ， 这 些 神经 元 在 多 时 间 步 内 通过 阅 络 继续 循 

环 信息 ， 从 而 发 现时 间 的 抽象 表示 。 因 此 简单 递归 网 络 不 仅仅 是 纪录 过 去 数据 的 纪录 带 ， 
Eiman (1990) 讨论 利用 图 15-3 所 示 的 简单 递 亲 网 络 在 连续 音素 流 中 发 现 单 词 的 边界 ， 而 

不 怖 任何 内 部 表示 性 约 东 。 递 归 网 络 的 输 人 代表 当前 的 音素 。 输 出 代表 网 络 对 序列 中 下 一 个 
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音符 的 最 佳 猜测 。 背 景 单元 的 作用 是 给 网 络 提 供 动态 记忆 以 便 能 够 对 包含 在 一 系列 的 音素 中 
的 信息 进行 编码 ， 这 是 和 预测 有 关 的 。 
5B VA & Ee BRA a 

Be — AB Ae — Ae aS A S (recurrent multilayer perceptron, RMLP)( Puskorius et 
al. ,1996)。 它 有 一 个 或 多 个 隐藏 层 ， 基 本 上 因为 同样 的 原因， 静态 多 层 感 知 器 比 那些 使 用 单 
个 隐藏 层 的 感知 器 更 有 效 和 节约 。RMLP 的 每 一 个 计算 层 对 它 的 邻近 层 有 一 个 反馈 ， 如 图 
15-4 所 示 ， 此 时 RMLP AP TRE” 。 

问 量 xrkn) 人 1 表 第 一 个 隐藏 层 的 输出 ，xrCn) 代表 第 二 个 网 藏 层 的 输电， 以 此 类 扒 。 
辐 量 区 (2) 代 表 输 出 层 的 和 输出。 那么 ，RMLP 通常 对 输入 向 量 n( 有 4) 的 响应 的 动态 行为 可 用 如 


下 联 立 方程 组 撒 述 : 
x, (n+1)= pi ixin), n(n)) 


pee St A eer ia a 
x n= pix (n), x,(n 4 1)) 
其 中 中 全) OF es, OC, SBIR RMP B— PRE, BOT RRR 
cee AS oe Ee AE PRY: 上 表示 网 络 中 隐藏 层 的 数目 。 
这 里 描述 的 RMLP 包括 图 15-3 的 Elman 网 络 和 图 15-2 的 状态 空间 模型 ， 因 为 RMIP 的 
答 出 技 或 任何 隐藏 层 没 有 限定 其 激活 函数 的 具体 形式 。 





单元 延迟 模块 
zy T 
N L | x,{n+ 1} 
| oe 
Iin + 1} i 
E a 有 多 个 隐藏 层 的 
多 层 感知 器 
图 15-4 回归 多 层 感 基 器 
一 阶 网 络 
FE FMS] 15-2 的 状态 空间 模型 中 ， 我 们 用 “ 阶 " 来 表示 隐藏 神经 元 的 数 日 ， 其 输出 通过 

单元 延 起 模块 反馈 回 输入 屋 。 


但 是 ， 术 语 “ 阶 "有 时 用 来 表示 如 何 定 义 神经 元 的 诱导 局 部 域 的 方法 。 例 如 ， 一 个 多 层 感 
Alaa Ze IG k 的 诱导 局 部 域 w 定义 为 
Mm = Da + Dg (15.5) 
其 中 x 深 于 隐藏 层 神 经 元 7 的 反馈 信号 ， 玉 是 输入 层 应 用 于 节点 i 的 源 信和 号， w 表示 网 络 中 
对 应 的 突 触 权 值 。 将 式 415.5) 所 描述 的 神经 元 称 为 一 阶 神 经 元 。 但 是 ， 有 时 诱导 局 部 域 办 
由 乘法 组 成 ， 表 示 为 
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l Şa T ‚U a i 站 ee Í l TlO I TE k mm De 


u, = 5 Dj Wight, (15.6) 
FERRERA LAD ae a, OET k R TARARE we, ERATOR i, j 


连接 起 来 。 
二 阶 神经 元 组 成 基本 的 二 阶 素 归 网 络 (Giles et al. ,1990)， 它 的 一 个 例子 如 图 15-5 FRR. 
阅 络 悉 有 这 按 时 间 顺 序 的 输入 序列 ， 并 旦 按 如 下 两 个 式 子 定 认 的 动 万 学 演化 ; 


nin) = b+ >) Ds Mgt, (0) un) (15.7) 2? 
l 
x,(n +1) = pla(n)) = 人 (15.8) 
其 中 ge 为 隐藏 神经 元 上 EA ag rae, AACE x, C ARET k BARA 
CH), u (AER ATU j 的 输入 ，wis; 为 二 阶 神 经 元 的 权 值 。 


图 15-5 所 下 的 二 阶 谋 归 网 络 的 一 个 特点 是 乘积 vna (nn}) 代 表 一 对 | 状态, AT, — 
个 正 的 权 值 ww, 表 水 从 | 状态 ,输入 :到 | 下 一 个 状态 | 的 状态 转移 的 出 现 ， 而 权 值 为 灸 表示 没 
有 转移 出 现 。 状 态 转移 描述 如 下 : 


O(x,,u,) = xy (15.9) 
4 fit HEIR 
z- 
= 





| x(n +1) 


本 XSA WY 







图 15-5 二 阶 递 归 了 网络 ; 为 简单 起 见 省 略 神 经 元 的 妨 属 连接 
了 网络 有 2 个 输 太 利 3 个 状态 神经 元 ， 因 此 需要 3x2=6 个 乘法 器 
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报 据 这 种 关系 ， 二 阶 网 络 可 以 用 来 表示 和 学 习 确 定性 有 限 状 态 自动 机 全 (deterministic finite- 


state automata, DFA), DFA 是 一 个 有 了 研 定 状态 数目 的 信息 处 理 闪 置 。 在 15.5 ANWAR SS 
关于 神经 网 络 和 自动 机 关系 的 细节 ， 

本 节 讨 论 的 圳 归 网 络 的 体系 结构 强 润 利用 全 局 反 局 。 如 在 箱 介 中 所 提 到 的 ， 递 归 网 络 也 
可 能 愉 有 一 个 局 部 反 僻 。 对 后 面 这 种 递归 网 络 性 质 的 概述 在 Tsoi and Back(1994) 中 提 到 ; 也 
可 参见 习题 15.7。 


15.3 状态 空间 模型 


在 动态 系统 的 数学 描述 上 ， 状 态 的 概念 起 着 重要 的 作用 。 动 态 系 统 的 状态 形式 地 定义 为 
一 此 数量 的 业 合 ， 它 概括 为 了 由 一 地 描述 系统 将 来 行为 所 必需 的 系统 过 去 行为 的 全 部 信息 ， 
除了 用 于 输入 (激励 ) 产 生 的 外 部 效果 之 外 。9x1l 向量 xfn) 表 示 非 线性 离散 时 间 系 统 的 状 
To WX1 同 量 wn) 表 示 用 于 系统 的 输入 ，p x 1 向 量 yfn) 表 示 相 应 的 输出 。 使 用 数学 话 
言 ， 德 设 无 嗓 声 ， 系 统 的 动态 行为 用 非 线 性 方程 组 
Kin + l) = pW x(n) + W,utn)) {15.10} 
y(n) = C x(n) (15.11) 
fii, FO W, 是 g x g ER, W, 是 g x (m+ 1), CE px BE: 9: RRR 是 对 角 
eT, H 
a p(x; ) 
| |> Min (15.12) 
Xa cof x) 
JBE, APICES o: RR, ZER, R AR 分 别称 为 输入 空间 、 状 
EARR Z, RETEA p RRR AEA 15-2 的 状态 空间 模型 是 m 
MA, pw wag 阶 同 归 模 型 。 式 (15.10) 是 模型 的 过 程 方程 ， 式 (15.11) 是 度量 方程 。 过 程 
方 入 (15.10) 基 式 (15.2) 的 特殊 形式 。 
建立 在 使 用 衣 术 多 层 感 知 表 和 两 个 延迟 线 记 六 基础 上 的 图 15-2 的 递归 网 络 提供 一 种 实 
现 陈 (15.10) 和 (15.12) 非 线性 反馈 系统 的 方法 。 注 意图 15-2， 在 多 层 感 知 器 的 神经 元 中 ， 只 
有 那些 通过 延迟 将 其 输出 把 司 到 输入 层 的 神经 元 与 确定 递 扫 网 络 的 状态 有 关 。 因 此 这 就 把 输 
出 层 的 神经 元 排除 在 状态 的 定义 之 外 。 
XT W,. W, AC RARE, COR SEAR TERE pl:)， 可 以 作 如 下 陈述 : 
© JERE W, 代表 隐藏 层 的 g 个 神经 元 连接 到 输入 层 的 反馈 节点 的 罕 触 权 值 。 矩 阵 W, 
代表 连接 到 输入 层 源 节点 的 这 些 隐藏 神经 元 的 突 触 权 值 。 这 里 假设 隐藏 层 神经 元 的 
(a FS BE a TEA (eS W, 中 。 
Fa Ce PER fe STON p 个 线性 神经 元 的 突 触 权 值 。 这 里 假设 输 
出 神经 元 的 偏 署 被 包括 在 权 值 矩阵 C 中 。 
。 非 线 性 图 数 of 代表 隐藏 神经 元 的 siemoid BIS MM, BUS RAE SA Hee 


_7 
Lee 


] + en (15.13) 





olx) = tanh(x) = 
或 logistic BRAY BFE Zt 
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本 


atts 


{15.14} 


FLC15. 10) AN 015.11 FAR AS SB JZ PE, ae BE A RIR 
ALY BIE Z PE ah ts AR TARE, RANG AER ed DB T RAA PRR a Pd 


Toe PAAR, BT ARR A) aS ER A R IR (Sontag, 1992) « 


例 15,.1 为 了 表示 扼 阵 W, W, 和 CC 的 组 成 ， 考 虚 图 15-6 所 示 的 完全 连接 递归 网 络 ， 其 


中 反馈 路 径 来 名 隐 藏 神经 元 。 在 这 个 例 中 ，m =2， =3，p = 1。 目 阵 风 . ， 角 |, 定义 如 下 : 


Wa Wo Wy h, Wi Wis 


Wa W» Wo |, W, = 


b, Hing Hs 














wa Wy Mag Ds Wy, Wy 


其 中 矩阵 WW, A b, b b AR, AARRE, 2, JAR. ECE 


AITHE, EXA C= 1,0,0], 


xin + 1) 





Š ws 
x(n) KLARY 


a L 


ae Li, 
输入 
Fa 


Hin} OO 一 


TRE 


图 15-6 有 两 个 输入 、 两 个 隐藏 神经 元 利 一 个 输出 神经 元 的 完全 连接 递归 网 络 


可 控 性 和 可 观察 性 


十 ‘740 





研究 系统 理论 时 ,稳定 性 、 可 控 性 和 可 观察 性 以 各 目 根 本 的 方式 为 突出 特征 。 本 节 讨 论 
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前 面 已 提 到 过 ,许多 弟 妇 网 络 能 用 图 15-2 FRAPS SR Am, BPR BERNA 
通过 一 系列 延迟 单元 反馈 回 输入 层 的 隐藏 居 输 出 。 在 此 背景 下 ， 知 道 递 归 了 网 络 是 否 可 控 和 可 
观察 是 很 重要 的 。 可 控 性 是 指 我 们 能 备 控 制 递归 网 络 的 动态 行为 。 可 观察 性 是 指 我 们 能 否 观 
察 到 应 用 于 递归 网 络 的 控制 结果 。 从 这 种 意 疼 来 说 ， 可 观察 性 是 可 控 性 的 对 蛋 。 

说 递归 网 络 是 可 控 的 ， 是 指 在 有 限时 间 步 内 ， 初 始 状态 可 以 控制 到 任意 想 达 到 的 状态 ; 
Wi TAT EMA. GBB ETE, BREA MAHER Pees 
可 Ate. AEA RR EA ER ER BCS 。 我 们 将 自己 
限制 在 可 控 性 和 可 观察 性 的 局 部 形式 。 局 部 是 指 将 这 些 概念 应 用 于 网 络 平衡 状态 邻 威 的 意义 
F (Levin and Narendra, 1993) , 

如 果 对 于 输入 u， 它 满足 条 件 








x = p(Ax + Bu) (15.15) 
PUA AS & FETT ECS. 10) I — PE RS, RENAE, Ox -O Ml G0, PMA LSRAM 
0 = 中 (0) 


描述 -。 换 名 话说， 原点 (0.0) 代 表 平 衡 点 : 
同 梓 不 矢 一 般 性 ,我 们 可 以 限制 到 一 个 单 输入 、 单 输出 (single input, single output, 
SISO) 系统， 人 简化 我 们 的 论述 。 可 以 把 方程 (15.10) 和 (15.11) 分 别 玻 写 为 
x(n + = pW x(n) + wu(tn)) {15.16} 
y(n) = cxin) (15.17) 
其 中 w, 和 < 都 是 yg x 1 列 向 量 ，w(n) 是 标量 输入 ，y(n) 为 标量 输出 。 册 于 由 对 应 于 式 
(15.13) 或 式 (15.,14) 的 sigmoid 函数 是 连续 可 微 的 ， 我 们 可 以 通过 在 平衡 点 #¥=0 Ma =0 的 附 
VET (15.16) EFF Taylor AA mE HERTE, 并 保留 一 阶 项 ,得 到 
ôx n +1) = p'(0)W,dx(n) + p (0) w,8u(n) (15.18) 
其 中 òx nA bul nea BBR ALA IML. og x 9 SER p (OE gi) 在 Y=0 时 
RPE at v 的 Jacobi 行列 式 。 我 们 可 以 描述 线性 化 的 系统 如 下 : 


6x(n + l) = Adx(n) + buin) (15.19) 
y(n) = ec dx(n) (15.20) 
其 中 gq xg PRAM g x1 WAS bE aT. 
A = P (OW, (15.21) 
b = {0} w, ($5.22) 


状态 方程 (15.19) 和 (15.20) 是 标准 的 线性 形式 。 因 此 我 们 可 以 利用 线性 动态 系统 的 可 控 性 和 
可 观察 性 的 众所周知 的 结果 ， 它 们 是 数学 控制 论 的 一 个 标准 部 分 ， 


局 部 可 控 性 


从 线性 化 的 方程 (15.197， 重 复 迭 代 产 生 下 列 结 果 : 
éx(n+1) = Adx(n) + buirn) 
éx(n +2) = Adx(a+1)4+bduin+ 1) 
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öx n + q) =A bxi n) +A? bdu€a + g-1) +--+ Abdu(n +1) 4+ bdu(n) 
其 中 g ERA AER. FAH. FETA) LAU (Levin and Narendra, 1993): 
FEISS IDKFHAREALARSE TH, REE 
M, = [A ‘b,::', Ab,b| (15,23) 
iag, wR, BAREA Hays. 19A tAE, 


ERE M, BRODER EE FA BEAD TIE EHE E, 
WH FE (15.16) C15. 17) FAR A HAAS A vw,(n) 驱 动 ， 其 定义 为 
u,(n) = [ulna ulna d1)yc,uln + ¢@—1)]" (15.24) 
因此 可 以 考虑 映射 
GxCn), un)) = (xin), KE 二 人) (15.25) 
其 中 如: R >R", ZEN 15.4 证 明 ; 
"状态 x(n + 9) 是 其 过 去 值 x(n) 和 输入 a(n), untl), 0, ulna 4 g — 1) 8 BREE 
线性 函数 。 
"xX(n+ 9) 尖 于 (nD) 的 Jacobi 矩阵 在 原点 的 值 等 于 式 (15.23) 的 可 控件 捧 阵 M.。 
RIAS GF u, (n) P xinh] Jacobi 矩阵 在 原点 (0，0) 的 值 表示 为 
[| fu + 2) 
(0,0) (0,0) 





Ce) ax(n) Axin) 1 X 
Jo» = ERON [as A ) = p y. (15,26) 
PLn)? on An Cn) Feon 


HHI BMH, OR SEH, WX BRM. HAERERE, Jey KITA 
式 等 于 单位 矩阵 工 的 行列 式 { 等 于 OL) AT ES M, FTIR, RM, BRE, 
那么 Jie) LRA. 

WT SRSA, RASA AREF, EE UREA F (Vidyasagar, 1993): 

考虑 映射 ff RR, ARAH TEH ADETTE EEE AA CR 都 是 可 
徽 的 ， 并 令 y,=f(x,), PARAAARUCR Ae ny AVCR Be y, A AUEN Lm 
TEI, WRHARAAAH, PARE: RR 也 是 光滑 的 ， 即 下 是 光 消 微分 同 卫 。 

BRET ft: 钳 一 站 如 果 满 足下 列 条 件 ， 则 说 它 是 色 到 站 上 的 微分 同 胚 : 

L.U), 

2, f f, U>V EAk E R). 

3. BRET E: TY 一 下 的 每 个 分 量 关 于 它 的 变量 是 连续 可 微 的 ， 

回 刘 可 控 性 的 问题 ， 我 们 将 对 式 (15.25) 定 义 的 映射 验证 满足 反 图 郑 定 理 中 的 了 (7)= 下 
Fit. MARAR, WREE M, 的 秩 为 9g， 可 以 说 局 部 存在 一 个 反映 射 ， 定 义 
为 

(x(n),x(n + q)) = G'(x(n),u,(2)) (15.27) 
Å(15.27 Pr te b FAE A FP 9 BE RERS TE g 个 时 间 步 中 从 状态 x(n) Bl 
十 9)o 所 以 ， 我 们 可 以 正式 陈述 局 部 可 控 性 定理 如 下 
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假定 弟 蚜 网络 由 去 (15,16) 和 (15.]7) 定 义 ， 它 在 原点 ( 即 平衡 点 ) 附 近 的 线性 化 方程 由 
(15.19) 和 (15.20) 定 义 。 如 有 于 线性 化 系统 是 可 控 的 ， 则 递归 网 络 是 在 原点 附近 是 局 部 可 控 
# o 


anh Ay ARTE 


重复 使 用 线性 化 的 方程 (15.19) 和 (15.20)， 可 得 
Sy(n) =e dx(n) 
Syn 41) =e öxin + 1) 
=c Axin) + e bduln) 


dy(n +g —1) =e AT Bx(n) + C AT han) + + c Abĝuln + g — 3) 
+e bdu(n + g - 2) 
其 中 g 是 状态 空间 的 维 数 。 所 以 ,我 们 可 以 陈述 (Levin and Narendra, 1993) 
方程 (15.19) 和 有 和 (1.20) 描 述 的 线性 化 系统 是 可 观察 的 ， 如 果 虐 阵 
M, = [ee 和 9] (15.28) 
RIKA q, PP RAR 


RRF M, 称 为 线性 系统 的 可 观察 性 矩阵 ， 
令 用 于 驱动 由 式 (15.19) 和 (15.20) 描 述 的 递归 网 络 的 一 系列 输入 定义 如 下 : 


mile) = luln)u(n +l) un+o —2)]" (45,29) 
相应 地 ， 令 
yn) = y(n) ya+l y(n+rga- 1)]’ (15.30) 
代表 由 初始 状态 x(n) 和 和 输入 序列 gu _1(n) 产 生 的 输出 向 量 。 那 么 我 们 可 以 考虑 映射 
Hg ln), X(tn)) = m(n). y(n)) (15.31) 


APH: 局 ” 一 局 *” 。 在 习题 15.5 中 证 明 y(n) 对 x(n) 的 Jacobi 矩阵 在 原点 的 值 等 于 式 
(15,28) H BES eM, AE HÆF u,.,(n) Al x(n) 的 Jacobi BAER AO, OMAR 





aA 
(Se) p a 
(io = Ppa AN et p i” (15.32) 


其 中 处 同样 为 不 感 兴趣 的 部 分 。 素 0% 的 行列 式 等 于 单位 矩阵 I 工 的 行列 式 (等 于 1) AS M, 
WITT SUCRE. SEM, EWR, WPA Ie htt. FARE, WORRIES 
SLA) PY WE RE M, 是 满 秩 的 ， 则 存在 一 个 着 映射 ， 定 义 为 

(u,.(n),x(n}) = H (u,.,(8),9¥,(n)} (15,33) 
KRE, OP APRA TE eR IM, x(n) Eu, (na) 和 (na) 的 非 线 性 函数 ， 非 线性 
氏 数 是 递归 网 络 的 观察 器 。 因 此 局 部 可 观察 性 定理 可 正式 地 陈述 如 下 (Levin and Narendra, 
1993); 
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由 式 (15.16) 和 (15.17) 所 定义 的 递归 网 络 ， 令 它 在 原点 ( 即 平衡 点 ) 附 近 线 性 化 的 形式 由 
式 (15.19) 和 (15.20) 所 定义 。 如 果 线 性 系统 是 可 观察 的 ， 则 通 归 网 络 在 原点 附近 是 可 观察 的 。 


例 15.2 性 碟 有 其 有 矩阵 A= af 的 状态 空间 柑 卉 ， 这 里 a 是 标量 , Le Pie. AÅ 
(15.23) WRT Sere RE RE M, 简化 为 
M. = alb,---,b.b] 
OMAR L At, AAS A KERR EE RSE AT. 
在 式 (15.28) 中 置 A = al， 得 到 可 观察 性 矩 泗 
M, = alce, ,c] 


它 的 秩 也 为 1。 这 个 线性 系统 也 是 不 可 观察 的 。 | 
15.4 有 人 外 部 输入 的 非 线 性 自 回 归 模 型 


考 灌 单 输入 单 输出 的 递归 网 络 ， 其 行为 由 状 沦 方程 组 (15.16) 和 和 (15.17) 描 述 。 给 定 这 种 
状态 异型， 希望 将 它 修改 为 一 个 输入 - 输出 模型 ， 作 为 代表 递归 网 络 的 一 个 等 价 表示 。 

利用 式 (15,16) 和 (5.17)， 输 出 y(n + 9 可 以 用 状态 x(n) FBLA AEE u,(n) 表 示 为 ( 参 
看 习题 15.8) 

ylnt gq) = B(x(n),u,(n)) (15,34) 
其 中 g TCS SAM, 0: 工 ? 一 民 。 候 设 递 归 网 络 为 可 观察 的 ， 可 以 用 局 部 可 观察 性 定 
理 得 到 
x(n} = Wy, (n),u,_.(n)} (15.35) 
其 中 映射 更 : RP 一 民 *。 将 式 (15.35) 代 入 (15.34)， 得 到 
y(n + gq) = BOPCy, (n) UCR)), u, Cn)) 
= Fy Cn) u, (Cn)) (15.36) 
其 中 u (MERE u (n ARAMA gq - 1 个 元 素 里 ， 非 线性 映射 F RRD, WA 
天。 用 式 {15.30) 和 (15.29) 给 出 的 y, (x) 和 uln) 定 义 ， 订 以 将 式 (15.36) 扩 展 为 
yint gq) = Flytntgqg— 1), YE ulin + g~ ,ntn)) 
Fln-~@¢@ +1 hn, AEBS 
yla4]1) = Fiya), e,yln- q +1) uin), uin -qg + 1)) (145.37) 
mente i, MPFR PIER F 局: 一 岛 ， 只 有 当 现 在 的 输出 y(n + DHIE 
yin) yn - q + 让 以 及 现在 和 过 去 的 输入 adn), oo, ulan- q+ LE Re, aA 
BR A SERIE. Fak Mi A. - 输出 表示 等 价 于 方程 组 (15.16) 和 (15.17) 的 状态 模型 ， 因 
此 递归 网 络 必须 是 可 观察 的 。 等 价 的 实际 会 义 是 图 15-1 的 NARX 模型 ， 它 的 全 局 反馈 限制 
在 输出 神经 元 ， 实 际 上 它 是 能 够 模拟 图 15-2 的 完全 回归 状态 空间 模型 (假设 m=1, p=1), 
并 且 它 们 的 输入 -输出 行为 没有 差别 。 

例 15.3 肯 考 虚 图 15-6 描述 的 完全 连接 衣 归 网 络 。 对 于 我 们 目前 的 讨论 ， 假 设 其 中 一 
个 输入 ， 比 如 说 min), 曾 减 为 0， 这 样 我 们 有 一 个 单 输 入 、 单 输出 的 网 络 。 如 果 网 络 是 局 
部 可 观察 的 ， 可 以 用 图 15-7 的 NARX 模型 代替 完全 连接 网 络 。 虽 然 NARX 模型 仅 有 产生 于 
和 输出 神经 元 的 有 限 反 馈 这 种 情况 ， 而 图 15-6 的 完全 连接 递归 网 络 的 多 层 感知 只 周围 的 反馈 
产生 于 三 个 隐 臧 /输出 神经 元 ,但 是 这 种 等 价 性 还 是 成 立 的 。 E 
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图 15-7 RS 34A eR] NARX 网 络 


15.5 弟 归 网 络 的 计算 能 力 


如 图 15-2 所 示 的 状态 空间 模型 和 图 15-1 的 NARX 模型 ， 递 妇 网 络 具 有 模拟 有 限 状 态 自 
动机 的 固有 能 力 。 自 动机 表示 像 计算 机 一 样 的 信息 处 理 设备 的 山 象 。 实 际 上 自动 机 和 神经 网 
络 有 人 久远 的 渊源 * o Minsky 在 他 1967 年 的 书 (p,55) 有 如 下 重要 的 说 明 : 


每 一 有 限 状 态 机 等 价 于 某 神 经 网 阁 ， 并 且 可 以 由 它 裤 拟 。 也 就 是 说 ， 给 定 一 有 限 状 态 机 
机 ， 可 以 建立 一 个 神经 网 络 N* ， 若 将 它 看 做 一 个 黑箱 机 器 ， 则 其 行为 酷似 用。 


递归 网 络 的 早期 工作 用 硬 的 阅 值 逻辑 作为 神经 元 的 激活 函数 而 不 用 软 的 sigmoid 函数 。 

也 许 是 Cleeremanaf 1989 ) 第 一 个 报道 了 展示 递归 网 络 能 和 否 学 会 由 小 型 有 上限 状 态 语法 所 和 
全 的 例外 ( 仿 发 性 ) 的 试验 。 特 别 地 ， 由 语法 寻 出 的 字符 串 赋 给 简单 递归 网 络 (图 13-3)， 需 
要 它 在 每 一 步 预 测 下 一 字母 。 预 测 是 上 下 文 相关 的 ， 因 为 每 一 个 在 语法 中 出 现 两 次 的 字母 每 
次 它 的 后 继 字 母 都 不 同 。 这 表明 网络 能 够 在 隐藏 神经 元 中 发 展 对 应 自动 机 (有 限 状态 机 ) 状 态 
的 内 部 表示 。 在 Kremer(1995) 中 给 出 正式 的 证 明 ， 表 明 简 单 递归 了 网络 有 和 任何 有 限 状态 机 一 
样 的 计算 能 力 。 

在 一 般 意 多 下 ， 递归 网 络 的 计算 能 力 民 现 在 两 个 主要 定理 : 

定理 I (Siegelmann and Sontag, 1991) ATA RPT eT A sigmoid 激活 函数 的 
神经 元 上 的 完全 连接 递归 网 络 模拟 ， 

图 灵机 年 Turingt1936) 发 明 的 抽象 计算 工 上 其 。 它 由 图 15-8 所 示 的 三 个 功能 块 构成 : (1) 
控制 单元 假设 任何 可 能 的 有 限 状 态 之 一 ; (2) 线 性 带 ( 假 设 在 两 个 方向 上 是 无 限 的 } 被 划分 成 
分 离 的 方块 ， 每 个 方块 都 可 以 存 拨 一 个 单一 的 符号 ， 这 些 符号 是 从 一 个 有 限 的 符号 集合 中 取 
出 的 : (3) 读 号 头 说 者 线性 带 称 动 ， 并 从 控制 单元 得 到 信息 和 把 信息 传送 到 控制 单元 (Fischler 
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and Firschein，1987}。 从 给 出 的 讨论 足以 说 明 图 灵机 是 一 个 和 和 任何 强大 的 计算 机 县 有 一 样 功 
能 利 能力 的 抽象 物 。 这 个 思想 称 为 Church- 制 单元 
Turing 4&1 5 

定理 也 (siegelmann et al.,1997) 对 
T NARX 网 络 ， 若 具有 一 隐藏 层 单 元， 其 









线性 市 





激活 函数 为 有 异 和 单 侧 饱 和 的 并 且 有 有 一休 让 储 一 个 符号 
线性 输出 神经 元 ， 那 各 不 讨 线 性 超 退 at By 7 ta 
(linear slowrdowny， 它 可 以 模 扫 用 完全 连接 移动 头 

的 具有 有 界 且 单 人 饱和 的 激活 通 数 的 递归 图 15.8 Turing 机 


网 络 。 


“线性 延迟 "是 指 如 上 时 -~ 个 完全 连接 的 及 个 神经 元 的 递归 网 络 在 时 间 7 内 计算 一 个 我 
们 感 兴趣 的 任务 ， 那么 等 价 的 NARX 网 络 所 占用 的 总 时 间 是 (N+ 1)7。 范 数 o RE 
直列 条 件 则 说 它 是 有 界 且 单 近 煌 和 的 (bomnded,one-sided saturatied , BOSS) 2:4 : 

L. BH of BAA: 好 a ptx) 万, 对 于 所 有 ER, 

2. BR oo ) 是 左 饱 和 的 ; HPAL s 和 3， 对 于 所 有 的 yx 过 *， 有 dr) = 3 

3. RAR pC ATER RH; 即 存 在 不 相同 的 两 个 数 x | Al x, FRE ol x,) <¢( 22). 

PY {El ( Heaviside) Als} Prek FE RAE BOSS 条 件 。 但 是 在 严格 意义 上 sigmoid RAR 
个 BOSS RX. ALA AZARAE 2. (Bi Pb, Cu URE Boss 条 件 ， 即 写成 
CFE logistic 图 数 的 情况 下 ) 


[sa WF x > s 
{) WHF rgs 
其 中 ER: ERE, Æ xash logistic S E RBE, 
作为 定理 I 和 定理 开 的 推论 ， 我 们 可 以 得 到 (Giles,1996); 


有 一 个 隐藏 层 神经 元 且 激活 函数 为 BOSS $ pen 
数 及 一 个 线性 输出 神经 元 的 NARX 网 络 是 Turing Taning g — 递归 网 阁 
等 价 的 ， 


图 15-9 给 出 定理 工 和 定理 攻 及 这 个 推论 的 
图 解 。 和 但是， 必须 注意 当 了 网络 体系 结构 受到 限制 





时 ,递归 网 络 的 计算 能 力 就 不 再 成 立 ， 如 同 在 
Sperduti(1997) 描 述 的 一 样 。 在 注释 77] 中 给 出 受 DE 
限制 的 网 络 体系 结构 的 参考 文献， 


图 15-9 定理 工种 定理 下 及 它们 的 推论 的 图 解 
15.6 学 习 算 法 
现在 来 研究 递归 网 络 的 训练 问题 。 第 4 章 讨 论 过 普通 (静态 ) 多 层 感 知 器 的 两 种 方式 : 集 
中 方式 和 串 行 方式 。 在 集中 方式 中 ， 疯 络 的 敏感 度 是 在 调整 网 络 的 自由 参数 前 针对 整个 训练 
集 计 算 的 。 在 串 行 方式 中 ， 参 数 的 调整 是 在 给 出 训练 集 的 每 一 个 模式 的 表示 之 后 进行 的 。 同 
样 ， 有 两 个 训练 递归 网 络 的 方式 如 下 : 
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1. 分 回合 (epochwise) 的 训练 。 在 给 定 的 回合 ， 递 归 网 络 从 初始 状态 出 发 到 达 一 个 新 的 状 
态 后 停止 ， 此 时 训练 亦 停 止 ; 然后 对 于 下 一 个 回合 又 重新 设置 一 个 新 的 初始 状态 。 初 始 状态 
在 每 个 训练 时 期 并 不 总 是 一 样 的 。 重 要 的 是 对 于 新 的 回合 的 初始 状态 和 网 络 在 此 前 一 个 回合 
到 达 的 状态 不 一 样 。 例 如 ， 考 虑 用 递归 陆 络 模拟 有 上限 状态 机 的 运行 ， 即 -个 设备 可 区 分 的 内 
部 配置 (状态 ;在 数量 上 是 有 限 的 。 在 这 种 条 件 下 ， 有 理由 使 用 分 回合 的 训练 ， 因 为 我 们 有 很 
太 的 可 能 性 用 递归 网 络 去 模拟 机 器 中 大 量 的 不 同 的 初始 状态 和 不 同 的 最 终 状态 的 集合 。 在 递 
归 网 络 的 分 同 合 训练 中 , “回合 "与 一 般 普 通 多 层 感 知 器 中 使 用 的 意义 不 同 。 用 现在 的 术语 ， 
递归 网 络 的 回合 对 应 普通 多 层 感知 器 的 一 个 训练 模式 。 

2, 连续 训练 。 训 练 的 第 二 种 方法 适合 于 没有 可 用 的 重 置 状 态 和 /或 需要 在 线 学 习 的 情况 。 
连续 训练 的 显著 特征 是 网 络 学 习 和 被 网 络 处 理 的 信号 处 理 同时 进行 。 简 单 地 说 ， 学 二 过 程 永 
不 停 赴 。 售 如， 考虑 让 递归 网 络 去 对 一 个 非 稳 态 过 程 如 语音 信和 号 建 模 。 在 这 种 情况 下 ， 网 络 
的 连续 运行 不 能 提供 方便 的 时 刻 以 决定 何 时 停 正 训 练 而 重新 开始 用 网 络 不 同 自由 参数 的 值 。 

记 住 这 两 种 训练 的 方式 ， 在 下 面 的 两 节 中 我 们 将 描述 递 灯 网络 的 不 同 的 学 习 算 法 ， 可 概 
述 如 下 

-FE 15.7 节 讨 论 的 通过 时 间 的 反问 传播 (back-propagation-throuph-time) 算 法 是 在 这 样 的 前 

提 下 提出 的 ， 即 递归 网 络 的 时 序 操作 可 以 展开 为 一 个 多 层 感 知 器 。 这 就 为 标准 反 向 传 
播 算法 的 应 用 铺 平 了 道路 。 通 过 时 间 的 反 向 传播 算法 可 以 用 分 回合 的 方式 、 连 续 方式 
或 两 种 方式 的 组 合 来 实现 。 
* 在 15.8 节 讨 论 的 实时 递归 学 习 算 法 且 从 方程 (15.10) 和 (15.11) 描 述 的 状态 空间 模型 导 
出 的 。 
两 种 算法 有 很 多 共同 点 。 首 先 它们 都 是 基于 梯度 下 降 的 方法 ， 因 此 代价 函数 的 瞬时 值 (基于 平 
方 误 差 准 则 ) 对 网 络 的 突 触 权 值 被 最 小 化 。 第 二 ， 它 们 实现 都 很 简单 ， 但 可 能 收 敏 很 担 。 第 三 ， 
它们 是 相关 的 ， 基 为 通过 时 间 的 反 向 传播 算法 的 信号 流 图 的 表示 ， 能 够 由 实时 递归 学 习 算 法 的 
一 确定 形式 的 信号 流 图 的 表示 经 转 置 而 得 到 (Lefebvre,1991; Beaufays and Wan, 1994), 

建立 在 梯 广 下 降 基础 上 的 实时 (连续 ) 学 习 使 用 最 少 可 用 信息 ， 即 代价 函数 关于 被 调整 参 
数 向 量 的 梯度 的 瞬时 估 值 。 可 以 通过 利用 Kaman 的 滤波 理论 加 速 学 习 过 程 ， 它 更 有 效 地 利 
用 包 售 在 训练 数据 中 的 信息 。 在 15.10 WERNA ER Kalman 滤波 器 ， 通 过 它 我 们 
可 以 处 理 动态 学 习性 务 ， 而 对 用 以 梯度 下 降 为 基础 的 方法 ， 这 将 会 是 非常 困难 的 。 在 15.9 
节 给 出 Kalman 滤波 器 的 简要 回顾 。 注 意 解 而 扩展 的 Kalman 滤波 器 既 可 以 应 用 于 静态 前 馈 网 
络 ， 亦 可 应 用 于 递归 网 络 。 


一 些 启发 


在 进行 刚才 提 到 的 新 学 习 算 法 的 描述 之 前 ,我 们 罗列 一 些 对 于 改进 递 妇 网 络 训 练 的 启 
发 ， 这 些 训 练 涉及 梯度 下 降 方法 的 使 用 (Giles,1996) : 
"训练 样本 应 该 按照 字典 顺序 排序 ， 最 短 的 符 苇 字符 串 首先 提交 给 网 络 。 
"训练 应 该 开始 于 一 个 小 的 训练 样本 集 ， 和 尔后 随 着 训练 进行 逐步 增加 样本 。 
© 只 有 当 正 在 被 网 络 处 理 的 训练 样本 的 绝对 误 盖 大 于 某 一 指定 的 标准 时 才 应 该 更 新 网 络 
BY R fiz 45 1B a 
* 在 训练 过 程 中 建议 使 用 权 值 衰减 ， 权 值 衰减 作为 复杂 性 正则 化 的 一 个 粗略 的 形式 ， 在 
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15.7 ERER ote 


FAT UE — Pa A A a E oad eC BPTT) E A EER MERRY 
展 ** 。 它 可 以 通过 将 网 络 的 时 序 操作 展开 成 一 个 分 层 的 前 馈 网 络 导 出 ， 人 性 的 拓扑 结构 在 每 个 
时 间 步 增加 一 层 。 
其 体 地 ， 主 表示 需要 学 习 时 序 什 务 的 递归 网 络 ， 从 时 间 2, 开始 一 直到 时 间 n NO OR 
示 对 递归 网 络 上 的 时 序 拱 作 进行 展开 所 得 的 前 馈 网 络 。 展 开 后 的 网 络 N" 和 初始 网 络 上 的 关系 
4 F: 
1. WRB (ny, n ARRE TE, MN ATRE KARRE, KEUR E 
PEAN PH 2870 SY E o- 

2, ENAN IEE MANEAR o 

3, 对 每 一 个 时 间 步 1EE [ma ， 从 网 络 W 中 i BRAT Hl BRAA j He 
触 连接 ， 是 在 网 络 W 中 从 神经 元 上 到 神经 元 7 的 突 和 触 连接 的 接见 。 

这 些 要 点 在 下 面 的 拘 子 中 解释 。 

例 15.4 考虑 图 15-10a Pra PAP AS AN, Arie theo, A fi MERE 
FF z-!。 这 个 操作 符 应 该 插入 到 图 15- 10a 所 示 突 触 连 接 ( 包 插 白 连接 环 ) 的 每 一 步 。 通 过 一 步 
一 步 地 展开 网 络 的 时 序 操作 ， 得 到 图 15- 10b 的 信号 流 图 ， 其 中 起 始 时 间 m=0。 图 15- 10b 代 
表 分 屋 的 前 局 网 络 N*" ， 其 中 在 每 一 步 时 序 操作 都 有 新 的 层 加 入 。 图 








x (72) Ww, 
Xun + l} 
Wi 
Wa] 
Xain + l) 
x(t} Wa 
时 间 + | 2 ft n+l 


b) 


图 15-10 
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HR EAR a) ele a AE BE (SET SR RPE A SB TV] BB a) 
播 两 个 根本 不 同 的 实现 。 下 面 依次 描述 这 两 种 递归 学 习 方法 。 


分 回合 的 通过 时 间 的 反 辣 传播 


将 用 于 递归 网 络 训练 的 数据 集 分 割 为 独立 的 回合 ， 每 一 回合 表示 一 个 感 兴趣 的 时 序 模 
Ao On 表示 一 个 回合 的 开始 时 间 ，m 表示 其 结束 时 间 。 在 这 个 回合 里 ， 可 以 定义 代价 限 
BL 


Enos Ni) = 5 >) Dy ela) (15.38) 


n= ng jE 

HPS 为 网 络 中 指定 期 望 响应 的 那些 神经 元 标号 j 的 集合 ，e, {nn) 是 该 神经 元 关于 期 望 响应 
和 和 计算 出 的 实际 输出 之 间 的 误差 信 导 。 我 们 希望 计算 网 络 的 敏感 度 ， 即 计算 代价 函数 对 网 络 
突 触 权 值 的 偏 导数 。 为 此 ， 可 以 用 通过 时 间 J i) + 2 ( back-propagation-through-time , BPTT ) 
算法， 这 个 算法 建立 在 第 4 章 讨论 的 标准 反 向 传播 学 习 和 集中 方式 的 基础 上 。 分 回合 的 BPTT 
算法 进行 如 下 { Wiliams and Peng, 1990): 

“ 首 抑 ， 对 时 间 区 间 (no,m) 执 行 单纯 的 数据 前 向 传播 通过 网 络 。 保 存 完 整 的 输入 数据 

记录 、 网 络 状态 ( 即 网 络 的 突 触 权 值 ) 以 及 期 望 响应 。 
* 对 过 去 这 条 记录 执行 一 个 单纯 的 反 疝 传播 通过 网 络 ， 计 算 局 部 梯度 


IG aah Hg + it 
An) gc Aastha ta) (15.39) 
的 值 ， 对 于 所 有 的 joa, fig © MR, o 这 个 计算 用 公式 
g'(v,(n)je fn} HPna = ay 


bm) = of (u(n))be(n) 4 >: 10,8, (nm 十 1) | 对 于 no<n<n (15.40) 
ke ol 


进行 ， 其 中 gy ) 是 激活 函数 对 它 的 自 变 量 的 导数 ，v(n) 是 神经 元 j 的 诱导 局 部 域 。 这 里 假 
设 网 络 的 所 有 神经 元 有 同样 的 激活 函数 pl: )。 重 复 使 用 式 (15.4 和 0)， 从 时 刻 n 出 发 ， 向 后 
一 步 一 步 进 行 丰 到 冉 刻 ny; 此 灶 涉 及 的 步 数 与 包 会 在 这 个 回合 内 的 步 数 相 同 。 

© 一 旦 执行 及 向 传播 的 计算 回 到 m + 1 时， 对 神经 元 i 的 突 触 权 值 w, 调 整 如 下 ; 


nA 
Aw ang hed =) > d,(nja,(n - 1) (15.41) 


只 aut 
ft a= n+l 
其 中 站 是 学 习 率 参数 ，x (na 一 1) 是 在 时 刻 n -1 时 作用 于 神经 元 ji 的 第 5 个 突 触 的 输入。 
比较 刚才 描述 的 分 回合 的 BPTT 的 过 程 和 标准 友 疝 传播 学 避 的 集中 方式 ， 可 以 看 出 它们 
根本 的 差别 是 前 者 在 网 络 的 许多 层 里 指定 对 神经 元 的 期 望 啊 应 ， 因 为 实际 输出 层 在 网 络 的 时 
学 行为 嵌 开 时 被 重 改 很 多 深 。 
截断 的 通过 时 间 的 反 向 传 醒 
为 了 使 用 通过 时 间 的 反问 传播 的 实时 形式 ， 我 们 用 误差 平方 和 的 瞬时 值 ， 即 
Eln) = = D Hn) 
jea 
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(EA RERIT RS. SOD PRE RR RTA BT EOAR, BRAT ER 
KAE n ) 的 负 梯 度 去 计算 对 于 每 个 时 刻 n 的 网 络 的 突 触 权 值 的 适当 调整 量 。 当 网 络 运行 时 ， 
油 整 建立 在 连续 的 基础 上 上。 但 是 为 了 采用 计算 可 行 的 方式 ， 我 们 只 在 一 个 固定 数目 的 时 间 步 
由 情人 存 相 关 的 输入 数据 和 网 络 状态 的 历 中 记录， 该 时 间 步 数目 称 为 截断 深度 (truneation 
depth). EARBA H A 表示 。 人 尾 何 比 下 叶 间 步 早 的 信息 是 无 关 的 ， 因 此 可 以 省 略 。 如 果 
不 截断 计算 ， 由 此 容许 加 到 开始 时 间 ， 计 算 时 间 和 储存 要 求 当 网 络 运行 时 会 随时 间 线 性 增 
长 ， 最 终 达 到 基点 使 得 整个 党 习 过 程 成 为 不 可 行 的 。 

算法 的 第 二 种 形式 称 为 戴 断 的 通过 时 间 的 反 向 传播 (trmcated back-propagation-through- 
time, BPTT(h) ) 7% ( Williams and Peng,1990)。 神 经 元 7 的 局 部 梯度 定义 为 


Ag ee 
8,023 =- (0 MT yjeEAHn-Aelen (15.42) 
由 此 导出 公式 
e Cul) )e kE) 对 于 =n 


òl) = wD) > w,(2)8, + E) 对 于 nh<l<n (15.43) 
kod 


一 旦 执行 反 回 传播 的 计算 到 这 时 刻 n- A+ 1 时 ， 对 神经 元 i 的 突 触 权 值 w EAT AM Fv ， 
Awin) = 7 > S (Ha — 1) (15.44) 


其 中 和 x;(1 1) 如 前 定义 。 注 意 式 (15.43) 中 iw (7) 的 使 用 需要 保留 权 值 的 历史 记录 。 趴 
有 当 学 习 率 参数 六 小 到 足以 确保 权 值 从 一 个 时 间 步 人 旬 下 一 时 间 步 不 会 有 很 大 改变 的 时 候 ， 在 
等 式 中 使 用 w, 才 是 合理 的 。 

比较 式 (15.43} 和 (15,40)， 可 以 看 出 与 分 回合 的 HBPIT 算法 不 同 ， 误 差 信和 号 只 有 在 当前 
时 间 n 才 会 进 和 计算。 这 就 解释 为 什么 不 保存 过 去 期 望 响应 记录 的 原因 。 实 际 上 ， 截 断 的 
通过 时 间 的 反 向 传播 算法 对 前 期 时 间 步 的 处 理 ， 和 随机 反 向 传播 算法 (在 第 4 章 讨 论 ) 对 待 儿 
层 感 知 些 中 的 隐藏 神经 元 的 计算 是 一 样 的 。 


一 些 实际 考虑 


在 BPTT 的 实际 应 用 中 ， 截 断 并 不 是 看 起 来 那样 是 完全 人 为 的 。 除 非 递 归 网 络 是 不 稳定 
的 ， 对 于 导数 38( 了 /3v (中) 应 该 收 化 ， 这 是 因为 时 间 上 非常 靠 后 的 计算 对 应 于 更 高 的 反馈 能 
7} CNG HB EF sigmoid 斜率 乘 以 权 值 ) 进 行 的 。 在 任何 情况 下 ， 截 断 深 度 站 应 该 大 到 足以 产 
生 搂 近 笑 际 值 的 导数 。 这 就 更 求 值 hh 有 一 个 低 的 下 界 。 例 如 ， 把 动态 驱动 递归 网 络 用 于 引 
WBE ( idle-speed ) 43 hlf, A = 30 是 一 个 完成 学 习 任 务 的 相当 保守 的 选择 (Puskorius et al., 
1996) 。 

丸 一 实际 问题 需要 讨论 。 本 节 讨 论 的 通过 时 间 的 反 向 传播 的 展开 过 程 提 供 一 个 利用 相似 
后 随时 奇 前 同 处 理 的 级 联 描绘 它 的 有 用 工具 ， 这 样 可 以 作 助 我 们 深入 理解 过 程 是 如 何 作 用 
的 。 然 而 这 个 优点 也 是 产生 缺点 的 原因 。 在 由 很 少 神 经 元 组 成 的 相对 简单 的 递归 网 络 中 过 程 
运行 咏 好 。 但 是 ， 当 展开 过 程 应 用 到 那些 实际 中 常 遇 到 的 更 一 般 的 结构 时 ， 基 本 人 公式， 特别 
十 式 (15.43)， 就 变 得 笨拙 。 在 这 种 情况 下 ， 更 好 的 方法 是 用 Werbos (1990) 措 述 的 更 一 般 的 
方法 ， 此 时 每 层 的 前 问 传 播 每 一 个 表示 引发 一 个 相应 的 反 向 传播 表示 的 集合 。 这 个 方法 的 优 
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为 摘 述 BPTTL) 特 殊 形式 的 机 理 ， 令 F ,表示 在 节点 1 的 网 络 输 出 对 4 的 有 序 导 数 
(ordered derivative) :为 了 导出 反 向 传播 方程 ， 以 相 友 的 次 序 考虑 前 阿 传播 方程 。 从 每 个 方程 
根 所 下列 原 填 推 导 一 个 或 案 个 反问 传播 表达 式 ; 


F e= elb, c), then Fi, = Pr, and FF, = oR, (15.45) 


H 15.5 为 了 让 有 序 导 数 的 概念 清晰 ， 考 虑 下 列 两 个 方程 的 非 线 性 系统 : 
x, = logu + x; 
y= xi + 34, 
变量 x, 在 两 个 方面 影响 输出 y: 直接 通过 第 二 个 方程 ， 和 间接 通过 第 一 个 方程 。y 对 x, 的 
有 序 叶 数 由 包括 x, 对 y 的 直接 和 冰 接 的 作用 效果 的 总 因果 影响 所 定义 ， 可 表示 如 下 : 


dx 
Pegs, 次 st + T ax. = 3 十 (2x ) (3 ) = 一 3 十 bx, x? 


= 
在 编写 程序 时 ， 对 BPTT(h) 的 有 序 导 数 ， 式 (15.45) 的 右 侧 的 每 一 个 有 序 导数 值 被 加 到 左 侧 
的 原来 的 值 上 。 在 这 种 方法 中 ,适当 的 导数 从 网 络 中 的 一 个 给 定 的 节点 分 配 到 了 所 有 的 以 前 
同方 式 前 馈 该 入 点 的 网 络 其 他 节点 和 突 触 权 值 ， 并 且 对 于 每 一 连接 中 可 能 出 现 的 延迟 做 出 通 
当 补 偿 。 这 里 描述 的 表达 式 的 简洁 减少 了 对 诸如 时 间 展 开 或 信号 流 图 的 可 视 化 的 需要 。 在 
Feldkamp and Puskorius(1998) LA At Puskorius et al.(1996) 中 ， 利 用 这 个 过 程 产生 了 实现 BPTT & 
法 的 伪 代 码 。 


15.8 实时 递归 学 习 


本 节 我 们 描述 另 一 种 称 为 实时 递归 学 习 (real-time recurrent leaming，RTRL) 31 的 学 习 算 
法 。 算 法 的 名 称 来 自 于 下 面 的 事实 ， 完 全 连接 网 络 的 突击 权 值 调整 是 实时 的 ， 也 就 是 说 ， 
是 在 网 络 继续 执行 它 的 信和 号 处 理 功 能 约 时 候 ( Williams and Zipser, 1989), Æl 15-11 显示 这 样 
一 个 递归 网 络 结构 布局 。 它 由 9 个 神经 元 和 mm 个 外 部 输入 组 成 。 网 络 有 两 个 不 同 的 层 : 
并 置 的 输入 -反馈 层 和 计算 节点 的 处 理 晨 。 相 应 的 ， 网 络 变 和 触 连 接 也 是 由 前 局 和 上 反刍 连 
按 构 成 。 

网 络 状 态 空 历 的 描述 由 方程 (15.10) 和 和 (15.11) 定 义 。 过 程 方 程 (15.10) 重 写成 以 下 扩展 形 
A: 

p(w &Cn)) 


x(n +1) = | o(wi&(n)) (15.46) 


piw §(n)) 
其 中 假设 所 有 的 神经 元 有 相同 的 激活 函数 -). (gt mel) xl iw, 是 递归 网 络 的 神经 
元 约 突 触 权 值 向 量 ， 即 
Mg 


IJ = | eae (15.47) 
Way 


W = 
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状态 
GÈ i 
x(t) 


RE 


答 入 向量 
u(t) 


图 15-11 用 于 描述 RTRL 算 法 的 完全 连接 递归 网 络 

其 中 w, A w, TAER BRIR W 和 和 Ws 的 第 j 列 。(g+ m+1)x] 疝 量 &(n) 定 义 为 
Eln) = ne (15.48) 1757| 
ulin) 
其 中 xna) 是 xl 状态 向 量 ，n(n) 是 (m+1)xti 输 和 向量 。utgn) 的 第 一 个 元 素 是 +1， 对 应 
的 Ww 的 第 一 个 元 妹 等 于 应 用 于 神经 元 AE b,- 

为 表达 简单 起 见 ， 引 人 新 的 年 阵 Atn)，Ut) 和 时 (az)， 分 别 描述 如 下 : 

1] .上 【Pi 是 状态 向 量 x(n SETAE w, 的 偏 导数 所 构成 的 9 x Cg + m + EFE: 


a l 
A,(n) 一 fukn) 一 | ears (15.49) 
i 


2.U (n) Æ ax (tqg+ m+ ERE, BTA j 行 等 于 向 量 &(n) 外 ， 其 他 行 都 为 0， 
Q 
U(n) = cm) fm ft ee (15.50) 
0 
3.O nd gx Gg MBH, ENB POATRERI RATHER AP RH SR, 
在 w Et n RITE 


榆 出 向 量 
yiz + 1} 
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Din) = diag(y CW EN) CW Eln) pw, GC n))) (15.51) 
ATRE, 就 可 以 对 式 (15. 御 ) 关 于 Ww RS. Alo eee, eh RIAA 
式 : 
Ant D = Bn Wa)A (nr) + U Cn}, ae ee: ( 15.52} 
RAAG 2 ATE IAB EA dR TE TEAR AS Bh A CAR EL) - 
为 了 完成 描述 这 个 学 习 过 程 ， 我 们 需要 将 矩阵 A (m) ARA HR w, BABI R 
A‘, SSCA BARS. 1M pxl 误差 向 量 ， 


efn) = din) 一 y(n) = din) 一 各 (15.53) 
根据 eln) SAE A ee BI a A 
Efn) = se? (nye(n) (15.54) 
学 习 过 程 的 日 标 是 极 小 化 由 对 所 有 时 间 a 的 名 (Cn) 六 和 所 得 到 的 代价 函数 ， 即 
Eos = >») B(x) 


MEMET, ARETE, 这 就 需要 梯度 答 阵 的 知识 ， 可 写 为 


wal = a -5 ow = 2a Ve Eln) 
HPV pE nee n A(R W = jw | 的 梯度 。 如 素 击 要 ， 可 以 继续 使 用 这 个 方程 并 日 
得 到 递归 网 络 的 突 触 权 值 的 更 新 方程 ， 并 且 不 用 近似 。 人 但是， 为 了 得 到 -一 个 实时 的 训练 递归 
网 络 使 用 的 学 习 算 法 ， 必 须 使 用 一 个 梯度 的 有 瞬时 合计 值 ， 即 有 Sn), OR SR OEE FE 
方法 的 近 候 。 
加 到 式 (15.54)， 以 它 作 为 最 小 化 的 代价 函数 ， 求 它 对 权 值 向 量 w, 的 微分 ， 得 到 
IEn) = (2e) e(n ) = - (SM) etn) = CA (Cn)etn),i = leet 


Vr € 








Ow, Ow, 
(15.55) 
因此 应 用 于 神经 元 j ARAE w A Hh 
Aw, (n) = + fae = WCAC nje(n),j i (15,56) 


ee, ACP ny ee, A (m ERO. SDRE, 
HERM PET ee I ei, AS 
A(O}=0 WHA; (15.57) 
TX ER a BG PAS BRAS PE AS 
R 15-1 概括 实时 递归 学 习 算 法 。 这 里 所 描述 的 算法 公式 可 应 用 到 任意 的 对 其 自 变 量 
可 第 的 激活 函数 p(')}。 对 于 特殊 情况 ， 取 双 曲 线 切 线 方 程 形 式 的 sigmoid 非 线 性 函数 ， 我 


们 有 
x(n +l} = ple,(2)) = tanht{ vt n)) 
H. pite TE a aT] (15,58) 


du (ne) 
其 中 v(n) 神 经 元 j 的 诱导 局 部 域 ，x, (n+ DBE n + 1 时 刻 的 状态 。 
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表 15-1 实时 递归 学 习 算 法 小 结 
BH 
m = Be A T AL SEY 
9 — WAS ER 
p= 和 输出 空间 维 数 
w= eo SARA, j=1, 2, oe, go 
初始 全: 
1. 对 条 法 的 突 般 权 秆 周 于 从 一 个 均 负 分 布 中 选 出 的 较 小 值 。 
2. BAAS lo et x 站 的 初始 值 为 xt0) =0. 
3. 对 j=1,，2,，…， ge BAO) =O, 
Ht: XP n=0, 1, 2,--, HE 
A,(n +1) = Dn W, EmA ln) + Ufa) ] 
efn) = din) ~ Cxfa) 
Aw iin} = A Caleta) 
aah, Ada) UCM) elm) AE op (15.46), (15.49), (15.50) 40015. 51) Aw 


使 用 瞬时 梯度 W EC) RSE I a Ew EAE EE VV ,各 ,基础 上 的 非 
SEAT RIA. HE, KO AES 4 AMA SRR RAI. Bee 
PRY a AS Pe A SE PS, CW AEE: W Ae, (ASP AE SE 
时 的 实际 差别 很 小 ; 在 算法 速率 参数 nm 减 少时 它们 近似 相等 ,与 真正 梯度 偏离 的 行为 所 导致 
的 潜在 的 最 严重 的 结果 ， 蚌 观察 的 轨道 (由 绘制 名 (n} 对 权 值 矩阵 WW(n) 的 元 素 的 图 形 获 得 ) 700] 
可 能 取决 于 算法 产生 的 权 值 改变 ， 这 也 可 看 作 另 一 个 反馈 源 并 从 而 导致 系统 不 稳定 性 。 让 参 
数 小 到 让 权 值 变化 的 时 间 尺 度 远 小 于 网 络 的 运行 的 时 间 尺 度 ， 可 以 避免 这 个 效果 。 

例 13.6 针对 图 15-6 有 两 个 输入 和 和 一 个 输出 的 完全 递归 网 络 ， 本 例 我 们 提出 RTRL 算 
法 的 公式 。 网 络 有 三 个 神经 元 ， 由 例 15.1 的 矩阵 W,, W, 和 C 构成 。 | 

由 于 m=2, g=3, Mak(15.48) 8) 7§ 

x, (7) 
x(n) 
Xl ni) 
ji 
u, (n} 
u(r) 


ib Ag (nA RE A Cn) US 总 个 元 素 。 利 用 式 (15.52) 和 (15.56) 分 别 得 到 


E(n) = 


Aula +1) = ¢ (y(n) dL >) w, (aru la) + Spé ln) | 
Aw,(n) = nld (n))- x Cn) Ay y(n) 
其 中 ò iE Kronecker delta, FB k=; WA 1, BPA O; G7, kl) =1, 2, 3 和 ?=1， 
2 ae 6 Fe 图 15-12 F- “PE AN (BA E Aw, (n THERA AB, ES W. = lt, |s (j, fol 
i)=1, 2, 3 AW, = jw, I, Te 2, 3, $=4, 3, 6, 
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NA in} En) 


wy A | p(t) : a ~ 
NOY Ay pelt + 1) 


S NS Eain) 
a reli) S N di ¢'(v3(4)) i e 


图 15-12 图 15-6 HEER ANMA RE 
HER: ENa (Cn) AH POP SS EBSA 











教师 强制 


如 归 网 络 训 练 中 经 常用 到 的 策略 是 教师 强制 (teacher forcing) ( Williams and Zipser, 1989, 
1995) ;在 目 适 应 性 滤波 中 ， 教 师 强 制 称 为 方程 - 误差 (equation-ermor) 方 法 {Mendel,1995)。 基 
本 上 教师 强制 涉及 在 网 络 的 训练 过 程 中 每 当期 望 响应 可 用 时 ， 在 随后 网 络 动态 行为 的 计算 中 
利用 期 望 啊 应 (4 即 目 标 信号 ) 蔡 代 实 际 神 经 元 的 输出 。 虽 然 教师 强制 是 在 RTRL 算法 下 描述 
的 ， 它 的 用 法 可 以 应 用 到 另外 的 算法 。 和 但是， 为 了 让 它 是 可 羔 用 的 ， 问 题 中 的 神经 元 必须 将 
E AJA A m E RIE o 

22 UIT Se rial EAT E POE LGC Williams and Zipser, 1995 ); 

© 教师 强制 可 以 使 网 络 训练 更 快 。 原 因 在 于 合用 教师 强制 等 于 假设 网 络 已 经 知道 属于 

那些 使 用 教师 强制 的 神经 元 的 任务 的 早期 部 分 。 

© 载 师 强制 可 以 作为 训练 期 的 校正 机 制 。 例如， 网 络 的 突 甬 入 值 可 能 有 正确 的 值 ， 但 

是 由 于 茶 种 原因 网 络 可 能 运行 在 状态 空间 的 错误 区 域 。 显 然 在 这 种 情况 下 ， 调 整 突 
触 权 值 是 错误 的 策略 。 

基于 柳 上 度 的 学 习 算 法 使 用 教师 强制 实际 上 是 优化 与 不 用 教师 强制 不 同 的 代价 函数 。 教 师 
强制 工法 和 无 强制 算法 产生 不 同 的 解 ， 除 非 有 关 的 误差 信号 为 0， 这 时 勿 需 学 习 ， 
15.9 Kalman 滤波 器 

IE an Rte RAE, SET RE PRE SES], IUCR A PUB, HF RRR 
度 的 瞬时 估计 ， 一般 是 很 慢 的 。 将 递归 网 络 的 监督 训练 着 做 是 最 优 滤波 问题 ， 可 以 克服 这 个 
广 竺 的 局 有限， 全 的 方法 是 以 回潮 到 学 习 过 程 的 第 一 次 秋 代 的 方式 递归 利用 包含 在 训练 数据 中 
的 信息 。 这 里 描述 的 思想 就 是 Kalman 滤波 的 实质 (Kalman,1960)。Kalman 滤波 器 新 颖 的 特点 
有 : 
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。 理论 是 根据 状态 空间 的 概念 提出 的 ， 可 以 有 效 利用 包含 在 输入 数据 中 的 信息 。 
。 递归 计算 状态 的 估计 ; 即 每 个 更 新 的 状态 估计 是 依靠 以 前 的 估计 和 当前 可 用 数据 计 
算出 的 ， 因 此 只 有 以 前 的 估计 需要 储存 。 | 
这 一 节 我 们 给 出 Kalman WERE À TEL, GE ANERER BE Kalman W 


Kiro FRIAR A ITA TATE IAS BBE, HT wa+1l) zI wn) Cin) din) 
扩展 到 非 线 性 动态 系统 ， 将 一 个 线性 化 的 形式 应 用 
于 系统 ; 后 一 部 分 的 讨论 推迟 到 下 一 节 。 
考虑 图 15-13 ORM BRE MA ARSE we 
流 图 。 这 里 给 出 的 系统 的 时 间 域 描述 和 15.3 节 给 出 图 15-13 用 于 描述 Kalman 滤波 器 的 线性 
的 状态 空间 形式 相似 。 图 15- 13 的 数学 表达 式 为 如 离散 时间 动态 系统 信号 流 图 
THE: 
win +1) = wn) (15.59) 
din} = COnjwta) + yin) (15.60) 


过 程 方程 (process equation) (15,59) Ai RF #8 (measurement equation)f15. 印 ) 的 各 个 量 如 下 : 
” W(n) 古 系统 的 状态 向 量 
*。 d(n) 是 观察 向 量 
。 Cin) EREE 
© nm) EREA 
在 过 程 方 程 (15.59) 中 和 作 了 两 个 简化 的 假设 。 首 先 ， 过 程 方程 是 无 噪声 的 。 其 次 ， 系 统 在 叶 
Al rn +1 和 5% 的 状态 之 间 的 转换 矩阵 等 于 单位 箱 阵 。 在 图 15- 13 我 们 使 用 了 状态 的 -- 个 新 符 
Kalman 滤波 问题 可 陈述 如 下 : 


利用 由 向 量 全 1d(i)i "组 成 的 所 有 观测 数据 ， 对 于 每 一 个 之 1 寻找 状态 Wi 的 最 小 均 
£74 T. 
注意 状态 癌 量 的 信息 是 林 可 用 的 。 如 果 i = n， 该 问题 你 为 滤波 ， 如 果 i > n， 被 称 为 预测 ， 
MWE leian 称 为 平 消 。 问 题解 的 导出 建立 在 下 列 概 设 的 基础 上 (除了 对 系统 线性 性 的 假 
it): 
lL Peer y(n) 是 均值 为 0 的 白 噪 声 ， 其 协 方差 矩阵 定义 为 
Roz). nz=kķ 
BID = {og noe (15.61) 
2. 对 所 有 ned, ASUA wi) a) PH. 
为 了 得 到 Kalman 滤波 器 的 巧妙 推导 ， 我 们 将 使 用 新 息 的 概念 1{Kailath , 1968 }。 特 别 地 ， 
与 观测 向 量 dtn) 有 关 的 新 息 过 程 (innovations process) E XA 
a(n) = a(n) -d(ntn-1) (15.62) 
其 中 d(nln -1) 是 d(n) 的 最 小 均 方 误差 估计 ， 给 出 观测 向 量 从 时 间 n = 1 FRA BEM 
Bj a- 1 的 所 有 过 去 值 。 对 于 “最 小 均 方 误差 估计 "我们 是 指 最 小 化 对 于 d(n} 测 得 的 均 方 误差 
的 特定 和 估计。 新 息 过 程 wm) 可 看 做 是 包含 在 a(n MRAZ dinin- 1) 的 预测 部 分 的 新 信息 的 
Whe. BBE gq(n) 有 如 下 的 优点 (Kailath,1968): 
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lL. 与 和 ai) 有关 的 新 加 过 程 of 2) SRR Bi Ed), d(2), dn - DAX, BI 
Flatndd’(k)] = 0 WRlekazn-! 
2. 新 电 过 程 由 - :系列 互相 无 天 的 随机 阿 量 构成 ， 即 
Elena k)i] = 0 SFleken-tl 
3. {RZ a YB Le) Be Pe A SL EL le] Se] —— eB 
'd(b},d(€2),°°-,d€n)imiall),af2),°,a0n) | (15,63) 
HEA AR A EA ES Be TR) AA AC Be a ERRA S.A 
Riek) 六 1 表示 在 时 间 上 的 状态 合计。 出 此 Kalman BERS HE SES BT Cee ah bt 
行 分 析 ， 我 们 可 以 导出 标准 Kalman 滤波 上 器， 如 表 15-2 中 的 小 结 。 


Æ 152 Kalman 谍 波 器 小 闭 





Cinl= [CenjERin.n - DOC (na) + Rinj? 
Ginl= Kin,n -C nia) 
Gind= yin) -ClniWin inal} 


@(a+lilaj= Wleata-1)}+ Giman) 
Kin+i..n)= Kinn -1) -G(alCln)K(n wn 1} 
i A Ay = TR AY Be BE & 
。 Kín, 2-1) BRAS E, TEMA 
K(n,2-1) = Elstn,n— l)e (n,n - 1))] (15.64) 
其 中 状态 误差 gCn，n 1) 定义 如 下 
enyn- l) = won) —- #ln in ~ t) (15.65) 
TE win EXS, Wala 一 1) 是 建立 在 直到 时 和 间 = — 1 为 止 的 过 去 观测 数据 基 
hi FAY BaP MAHE. 
e Tin ERTE AETR E en) MAS aln) ERR i AT (conversion factor), BI 
eln) = ROadT(ndatn) (15.66) 
其 中 e(n) =d(n) -d(nin) (15.67) 


d(z1n) 是 在 直到 时 间 ”为 止 的 观测 数据 下 的 观测 向 量 d nr) 的 佑 计 。 
© Gin) Kalman 增益 (gain}， 用 于 决定 明 新 状态 估计 的 校正 量 ， 
表 15-2 小 结 的 Kalman 滤波 剖 类 型 补 设 计 用 于 传播 误差 的 访 方 差 矩 阵 Ktn,n -1)。 因 此 
这 个 算法 称 为 协 方差 Kalman 滤波 算法 (covariance Kalman filtering algorithm)。 


平方 根 Kalman Hike 


EA 22 Kalman HEIR es PRE, FS Kin + 1,n) 是 由 Riccati 方 
程 决 定时 ， 它 在 表 15- 2 的 最 后 一 行 定义 。Riccat 方程 的 右边 是 两 个 矩阵 量 的 益 。 除 非 在 算 
法 的 每 ~ :次 迁 代 中 使 用 的 数值 精确 度 都 足够 高 ， 否 则 从 这 个 计算 所 得 到 的 更 新 失 阵 Kn + 
1] ,3 可 能 不 为 非 负 定 的 。 很 明显 这 样 的 解 是 不 可 接受 的 ,因为 焉 (n+ 1,n) 代 表 协 方差 矩阵 ， 
击 定 义 它 是 非 负 征 的。 由 于 使 用 有 限 字 长 算术 而 产生 的 数值 不 准确 性， 进而 导致 Kalman jË 
Ue tr HY TEASE IT ALR A AL $ (divergence phenomenon) 。 
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这 个 问题 可 以 通过 传播 误差 协 方 差 年 阵 的 平方 根 KC(n,n 一 1) 而 不 是 KK(n,n 一 1) 昌 号 
K, Bipi, EH Cholesky AAR, RINE KO n,n 一 1 表示 为 (Golub and Van Loan, 
1996 }: 
Kia,n-1) = K (nn —1)K™ (n,n — 1) (15.68) 
这 里 K” (n, n- DEFAR, Kinn- DECH H., EATER, Cholesky 
因子 K” n,n- DERRE Kn, n- 了) 的 平方 根 。 因 此 建立 在 Cholesky 因 式 分 解 基础 上 
的 Kalman 2ER A882 984 P FAR Kalman AR EEA, RRE AK"? (n,n -1) 
K” (n,n — 1) AAA ET REPERK AIR, AA EEA EAEI A Ee ES 


15.10 RI EH] Kalman 滤波 器 


我 们 对 Kalman 滤波 占 的 主要 兴趣 在 于 利用 它 的 独 有 特性 来 执行 递归 网 络 的 监督 训练 '* ， 
出 于 人 退 归 网 络 结 构 的 复 淋 性 (例如 递 叶 多 层 感 知 器 )， 问 题 关键 在 于 如 何在 不 损害 Kalman HE 
波 带 理论 应 用 的 问 时 又 让 该 方法 计算 上 可 行 。 找 到 的 管 案 是 使 用 -个 扩展 Kalman 滤波 器 的 
解 焕 形式 ， 其 计算 的 复杂 性 适应 于 可 利用 的 计算 资源 和 和 特定 的 应 用 (Puskorius and 
Feldkamp, 1991) 。 

Sie VERA PRA p 个 输出 节点 的 静 仿 多 层 感知 器 基础 上 的 递归 网 络 。 
TE w nn) Fea FEI n 时 整个 网 络 的 窒 触 权 值 。 根 据 自 适应 请 波 器 的 思想 ， 网 络 的 状态 
空间 方程 可 以 建 模 如 下 (Singhal and Wu, 1989; Haykin, 1996 ): 

win+1) = wn) (15.69) 

d in) = e(wln) ulad. Yn + vn) (15.70) 

i MANA wn BRAS AEA. FRR el, OKO ABBR ula) k 

第 三 个 向 量 参数 y(n) 分 别 表示 输入 向 量 和 回归 节点 激活 的 向 量 。 实 际 上 式 (5.69) 指 出 模型 

(APRA, Fee CCT pot win) 转 换 为 在 时 间 n+1 的 win+1)， 它 是 单位 姑 

御 。 最 佳 杂 件 是 指 递 归 网 络 误差 曲面 的 局 部 或 全 局 最 小 。 模 型 非 线 性 的 惟一 来 源 是 度量 方程 

(15.70)。 向 量 d, 才 示 模型 的 期 望 响应 。 由 于 式 (15.70) 表 示 模 型 的 输入 - RAR, AS 

cf， ) 表 示 多 层 感知 器 的 输入 层 到 输出 层 的 整个 非 线性 性 ， 式 (15.70) 的 噪声 度量 何 量 
vont ORAM ADA BEE R(a) 的 多 元 让 噪声 过 程 。 

在 应 用 扩展 的 Kalman 滤波 器 到 递归 网 络 时 ， 必 须 注 意 “ 状 态 " 是 在 两 种 不 同 的 环境 下 使 
用 的 术语 : 

* 系统 演化 通过 自 适 应 性 滤波 ， 这 显示 在 训练 中 对 六 归 网 络 权 值 的 改变 ; 向 量 wlan) 

示 这 第 一 种 状态 概念 。 

。 巡 归 网 络 自身 的 运行 ， 例 如 函数 e 所 依赖 的 回归 节点 激活 ; A y(n) 表 示 这 第 二 种 

过 过 比较 式 (15.69) 和 (15.70) 描 述 的 模型 与 式 (15,59) 和 (15.60) 的 线性 动态 模型 ， 可 以 
看 到 这 两 个 模型 的 惟一 差别 在 于 度量 方程 的 非 线 性 的 形式 。 为 了 应 用 Kalman 滤波 器 理论 到 
效 播 述 的 状态 空间 模型 ， 我 们 必须 首先 线性 化 式 (15.70)， 并 改写 为 

din) = Cln)win) + v(n) (15.71) 
BA, AP Ctn) 是 线性 模型 px WHR BRE, Adin) RWFRS. 70 dnd. 2 
性 化 包括 整个 网 络 的 p “ein OTHE We AAD, ERA 
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302 
~a ce 
dw, ots Fwy 
der dez Jez 
Cín) = | Hw ow, F Www (15.72) 
Sp le Ie 
Sw, dw, d Wwy 
其 中 ce, t=1, 2, 0, p RRIFRTERZ c(wln), uln), von) Ma i 个 元 素 。 式 (15.72) 


Anite won) = win Ak fa, HF oim EER n AEE wn OO, E ht E 
的 Kalman WER a8 EtA E SATA n - 1 MAR Li H% (Haykin, 1996), ÆA 
AT, DEAE a at AT Ta] E te) E A ARREA RAA AAR Rk, P 
JER] Kalman 滤波 器 算法 建立 在 15.7 节 或 15.8 节 中 提 到 的 这 两 种 算法 中 的 一 个 或 男 一 个 的 基 
WE. RERA e YA TF RIA BBA a ee. SEL, WFAA 
Rise, FER C(n) Rea HERE A(xn) 的 元 素 组 成 ， 就 像 式 (15.52) 中 的 RTRL 算法 所 计算 的 一 
样 。 因 此 ,度量 第 阵 Ctny 是 网 络 输出 对 网 络 自 由 参数 的 动态 导数 第 阵 。 正 像 在 时 间 步 (ma + 
1) 时 网 络 递 归 节 点 的 激活 是 一 个 对 前 面 的 时 间 步 n 得 到 的 相应 值 的 函数 一 样 ， 按 照相 似 的 
方法 。 我 们 发 现在 时 和 间 步 (n +1) 时 ， 弟 归 节 点 激活 对 网 络 自由 参数 的 导数 就 像 在 RTRL 方程 
所 表示 的 那样 ， 为 前 面 的 时 间 步 n 得 到 的 相应 值 的 另 数 。 

BERREKETA gH, Ail, SHA k 个 神经 元 。 在 式 (15.72) 定 六 的 p 
x F ERER C 是 阅 络 输出 对 所 有 网络 权 值 的 导数 矩阵 。 殖 阵 Cn RA on) 
依赖 关系 由 式 (15.72) 所 隐 全 定义。 这 样 定义 的 矩阵 CC(a) 包 括 对 于 扩展 的 Kalman 滤波 器 的 
任何 解 确 形式 所 必需 的 导数 。 例 如 ， 如 果 使 用 全 局 扩展 Kalman 滤波 器 (global extended Kalman 
filter, GEKF ) ( 即 我 们 没有 和 解构)，g = 1， 并 日 整个 矩阵 Cn) 由 式 (15.72) 所 害 疼 。 在 另 一 方 
m, RR FR AS aR Kalman 滤波 器 (decoupled extended Kalman filter, DEKF ), AbA “Ja” E 
BAERE Cin BART S RA HAA ae A A eR E— A, E Cln) ARBE 
为 一 个 单独 块 ， 其 中 每 一 个 块 被 标记 为 =1，2，,，…:，g。 对 于 后 者 ， 和 矩阵 Cn) 仅 仪 是 单个 
C, RAE, Fra: 

C(n) = [GC nD, (n), Cin) ] 

ANF RE, EE CCn}) 必 须 如 式 (15.72) 所 定义 的 那样 计算 ， 

现在 开始 应 用 表 15-2 的 Kalman 滤波 器 算法 。 特 别 地 ， 对 于 式 (15.69) 和 (15.71) 的 线性 
化 动态 模型 ， 我 们 有 (Puskorius and Feldkamp, 1991 ): 


Pin) = [DC CK (n,n DC(n) + R(n)] (15.73) 
G{n) = K (n,n - IC (nTtn) (15.74) 

a(n) = din) —-d(n!n-1t) (15.75) 
Wiin+hin) = (nin -134+G6,(n)a(n) (15.76) 
K.(2+1,n} = K.(a,n—-1) -G,(ndC (a) K. (n,n —- 1) (15.77) 


其 中 1=1，2，…，w。 式 (15.73) 至 (15.77) 的 参数 向 量 和 信和 号 向 量 描述 如 下 ， 
I(n)=pxp HE, EPET Et MAT 
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Gi(n) = W, x p ERE, HR i 组 神经 元 的 Kalman 增益 
aCnJ=pxi jet, RRA RS A hy dn) AE it dí nins- DASE 
hit d(aln- DEHRA R RERE w, (nin -1)| 时 网 络 的 实际 输出 y(n) ER, 
实际 输出 yn) ARASIRA un POE BS A 
Wi(nla-l)=Wxl me, ES EBA n-1 为止 的 观察 数据 情况 下 ， 对 于 第 
i 2A AAR w,《n}) 的 估计 
K (n,n-l)=k x k BEB, 表示 第 i 组 神经 元 的 误差 浴 方 差 和 矩阵 
包括 在 (15.73) 的 全 局 转换 因子 T(r) 定义 中 的 求 和 说 明 扩 展 的 Kalman 滤波 器 的 解 耦 本 质 . 
IRERE- -上 忠 ， 就 是 埋 解 在 DEK 算法 里 艇 看 实际 决定 全 局 误差 协 方差 矩阵 K(n,n -1) 
中 哪些 特定 元 素 需 要 保持 各 更新。 实际 上 ， 所 有 计算 的 节省 是 由 于 扰 略 与 全 局 误差 协 方差 炸 
Me Kt(n,n 一 1 的 那些 非 对 角 块 有 关 的 保持 和 更 新 。 
由 式 (15.73) 至 (15.77) 编 码 的 DEKF 算法 最 小 化 代价 函数 


B(n) = + J) ets) II? (15.78) 
这 里 eC) RZ, EN 
ep = dj) - yj), 了 = 1,2,,n 
K 2c PSR EA PU RH 六 包括 时 间 廊 的 所 有 可 用 信息 的 实际 输出 。 注 意 ，- 一 般 人 情况 下 ， 
外 六 天 区 让。 


A THER 


式 (15.69) 至 (15,70) 的 非 线性 动态 系统 是 非 强制 的 ， 即 过 程 方程 (15.69) 没 有 外 部 输入 。， 
这 个 缺陷 可 能 寻 致 严重 的 数值 困难 ， 因 此 在 有 限 精度 环境 运行 时 产生 Kalman 滤波 器 发 散 。 
如 15.9 节 解释 的 ， 发 散 现象 可 以 用 平方 根 滤波 解决 。 
男 一 规避 发 散 现 象 的 方法 是 使 用 启发 式 的 机 制 ， 涉 及 对 过 程 方程 人 为 添加 过 程 噪声 、 表 
IBY 
wtn+l)= wan)+o,(n), Pe 12a (15,79) 
其 中 œ; (n) BIER, i o (nn) 是 一 零 均值 和 对 角 协 方差 矩阵 为 O(n) HSER 
声 。 人 为 洪 加 过 程 噪声 o (am) 实 际 上 是 与 度量 噪声 yt rn) 和 和 网络 初始 状态 独立 的 。 添 加 @, ln) 
到 式 (15.79) 所 得 到 的 效果 是 修改 用 于 误差 协 方 差 挫 阵 更 新 的 Riccati 方程 如 下 (Haykin， 
1996) ; 
K.(n4+1,n) = K.(a,n—-1) - G(n)C,Ca)K,(n,n —- 1) + On) (15.80) 
假设 QQ,(n) 对 于 所 有 的 i PREMERA, FE K: (41,0) SFP n 都 是 非 负 定 的 。 
Ba T SCAR RE, ASRS o (rn) 还 有 下 列 有 益 效果 ;在 训练 过 程 中 ， 
算法 过 穆 有 较 小 可 能 性 陷 人 局 部 最 小 。 这 就 导致 在 收敛 速度 和 解 的 质量 方面 俩 训练 人 性 能 显著 
提高 。 


DEKF 算法 小 结 
R 15-3 RR FETA (15.73) B 15.76) (15.80) Sea LAJ DEKF 算法 小 结 。 这 个 表 也 包括 
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算法 的 初始 化 细节 ， 

现在 可 以 对 扩展 的 Kalman (EUR h(E TFTA Fo #2 15-3 小 结 的 DEKF 算法 指 的 是 所 
有 可 能 的 信息 保持 学 习 过 程 {information ~ preserving leaming procedure) 的 整个 算法 族 ， 包 括 
GEKF。 作为 一 般 的 法 则 ， 在 解 的 质量 方面 我 们 期 望 DEKF 产生 的 性 能 能 接近 GEKF 但 不 希望 
超过 它 的 性 能 。 别 一 方面 ，DEKY 计算 上 要 求 比 GEKF 要 少 , 虽然 DEKF 有 计算 上 的 优点 ， 
韦 在 计算 机 速度 和 内 存 的 增加 使 得 GEKF 对 于 特定 的 问题 的 计算 成 为 本能， 特别 是 在 递归 网 
络 的 离线 训练 时 ， 


表 15-3 DEKF 算法 小 结 





#3 16 
1. AS BH RA Se AR PM — 7 By] op eH A Bef, 
2. BEAM O(a) (Ra AAA ISP olang F 10-68 10-7, 
LEK, O31, $= 小 的 正常 数 ， 
计算 : 
n=l, 2, -, 计算 


Tints Í Ste, (0K, Cn, 2 - DOC tn) + Rin} | S 
ET 


Gins Kinsa DEC Calin) 
wn) = din} ~-dlaln-1) 
wint liaj 8,02 |e —134+G (ntin) 
Kint lins Kinsan- l}- Ginn (2) K (asa - 13 +0 in) 
Ep 37 dala — DARHA ey oe A de ro toy 





注 : 对 g =1 BCR, DEK 算法 变 为 全 局 扩展 的 Kaman HEC CEPA H 
计算 复杂 性 


K 15-4 RHA ATEN SAY AAT HR aE EAR: 遂 过 时 间 的 反 向 传播 ， 实 
时 递归 学 习 ， 解 而 扩展 Kalman 滤波 占 。 它 们 计算 复杂 性 依次 增加 。 


R154 用 于 递归 网 络 的 学 习 算法 的 计算 复杂 性 比较 





$= 状态 数 
W = RARER 
上 = WS: APSE 
1. se cet BAT) BY A Je) 4 $B {BPTF} 
” 时 间 需 求 ， 存 情 空 间 需 求 ; OWL =+ SE), OCWL+ SL) 
2. 和 洋 时 递归 学 避 !RTRI 算 法 
“ HAAR, FoR: OWS L), OWS) 
3. 解 移 扩展 Kalman 3 DEKR RYE: 
- 在 最 小 值 处 ，DEKF 利用 RTRL 或 BETTS SCRA R DERRY SE BPTT， 寺 间 和 空间 要 
求 为 网 络 输 出 数 p LRE BPIT 计算 单 -- 标 有 量 误 若 项 的 导数 所 花 的 代价 。 
* 9b, DEKF KARBA ASE OG W -+p DE HOW RARER A 0E Kh EE g 为 组 数 而 为 
第 i 组 神经 元 数 。 当 只 有 AAEH, one fe GEKF DT --FE, PAS eR Ra ES Ol pW M 
ORË). 
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15.11 计算 机 实验 
这 个 实验 再 次 讨论 13.5 节 研 究 的 非 线性 时 间 序 列 的 模拟 。 叶 间 序 列 由 频率 调制 信号 定义 ; 


x(n} = sin(n + sin(a*)) n = 0,1,2,°"° 
FRAT LR RIE AL pS EAR: 
© EIA & ke Al ak (recurrent multilayer perceptron, RMLP) A 1 个 输 人 节点，10 个 递归 神经 
元 的 第 一 际 藏 层 ，10 PS 4 CA O aF N 个 线性 输出 神经 元 。 
© Seah Hr HO it BZA (focused time lagged feedforward network, TLFN ) ,包括 20 个 抽 头 延迟 
时 间 记 忆 ， 和 由 10 个 隐 含 神经 匹 和 1 个 线性 输出 神经 元 组 成 的 多 层 感 知 器 ， 
RMLP 比 集中 TLEN 有 稍 多 的 突 触 权 值 ， 但 是 愉 有 它 一 灶 的 记忆 0 个 递归 节点 和 20 个 抽 头 )。 
利用 DEKE 算法 对 RMLP 进行 训练 。 利 用 扩展 的 Kalman 滤波 器 的 两 种 形式 对 TLFN 进行 
训练 : (GEKF 算法 ( 即 全 局 形式 )，(2)DEKF BE RRR Lh). PEA ， 
« GEKF 
$= 用 作 初 始 化 误差 协 方差 矩阵 Klan, 2-1) HBR 
=0.01 
Rin) = 度量 噪声 vm EA AERE: FRAT RO) = 100， 在 训练 结束 时 退火 至 
R(n) =3 
Q(tn) = 和 人 人工 过 程 噪 声 wn) HHA RPF: 开始 时 Qt0) = 10°77, FEVERS RIB UX 
# Q(n)=10°° 
RROD 各 Cn) 的 退火 在 训练 过 程 中 起 到 加 快 学 习 速 度 的 作用 。 
¢ DEKF 
ge = 组 数 
人 用 于 RMLP 
11 上 用 于 集中 TLFN 
其 他 参数 和 CEKF 的 一 样 
训练 是 在 4000 个 样本 序列 上 进行 的 。 对 于 RMLP， 使 用 了 长 度 为 100 MT, ARE 
See REP, AFH 30 000 个 子 集 。 具 有 4000 个 样本 的 训练 集中 的 每 个 数据 点 处 理 了 大 约 750 
类。 对 于 集中 TLFN， 在 训练 集中 的 每 个 数据 点 也 处 理 了 约 750 次 ， 在 两 种 情况 下 ， 测试 都 
对 300 个 数据 点 进行 。 
图 15- 14 表示 利用 DEKF 算法 训练 的 RMLP 讨 算出 的 单 步 预测 波形 ft{n)。 这 个 图 也 和 包括 
实际 的 波形 y(a)。 两 波形 很 难 区 分 。 图 15- 15a 显示 由 RMLP 产生 的 预测 误差 
eln) = y(n) - fln) 
相应 的 由 算法 GEKF 和 DEKF 训练 的 集中 TLEN 产生 的 预测 误差 分 别 显示 在 图 15- 15b 和 15- 
15c。 通 过 比较 图 15-15 的 结果 及 13.5 节 的 模拟 结果 ， 可 以 得 到 如 下 观察 结果 : 
1. 均 方 误差 音义 上 最 精确 的 模拟 是 由 DEKF 算法 训练 的 RMLP 得 到 ;对 5980 个 样本 计 
算 的 预测 误差 的 方差 是 1.1839 x 107° 
2. 对 于 集中 TLFN， 均 方 误 莽 意义 上 的 最 精确 的 模 氢 是 通过 GEKF 训练 得 到 的 。 对 于 
GEKF 训练 ， 预 测 误 差 的 方差 是 1.3351 x 10°, MHF GEKF VK, WAR% HT 
1.587] x 10“。 两 个 都 是 用 5980 个 样本 计算 的 。 
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时 间 7 


图 15- 14 计算 机 建 模 试 验 的 实际 让 形 ! 实 线 ) 和 预测 波形 ! 炭 钱 ) 亚 加 图 ， 
利用 TDEKF 算法 训练 的 RMLP 所 计算 预测 波形 
0.1 


RE, eln) 
RE, clr) 





0 5 和 100 150 200 250 300 “0 50 100 150 20 250 300 
上 时间 ,天 Ay (es 2 
a) b} 
0.1 
0.08 
0.06 








0.04 
0.02 


RH. eln) 


50 100 150 200 250 300 
TR], 7 
c) 
图 15-15 二 种 不 同 模 拟 的 预测 误差 波形 
ai 由 DEKF 训练 的 RMLP, ez rz 1.1839x107 b) 由 CEKF iA] TLFN, RAT Æ = 1.3331 x 10-4 
cj 由 DEKF 训练 的 从 焦 TLFN, eA = 1.5871 x 107+ 
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3. ot Ta es HE ed ERRA A IARE OTL, 第 13.5 节 报 告 的 预测 误差 的 方 莽 是 
1.2x 107°, AHE h CEKF 算法 和 DEKEF 算法 得 到 的 结果 要 差 一 个 数量 级 ， 
EXT Be le] IM oy A Kalman 让 波 器 的 优异 的 学 习性 能 归 因 于 它 的 信息 保持 性 ， 


15.12 递归 网 络 的 消失 梯度 


ARERR Sin Ai Bo ERY ARE A kA A (vanishing gradient), € AIIE 
IRA LART EIS A SE ATE Wil e Pd 28 E AE 4 EY A PA — py a SE ( Hochreiter, 1991; 
Bengio et al. ,1994 ) 关键 是 由 于 组 合 的 非 线 性 性 ， 一 个 时 间 上 隔 得 远 的 输入 的 一 个 微小 变 
化 区 网 络 的 如 乡 几 平 不 会 产生 有 影响。 即使 时 间 上 隐 得 远 的 输入 的 人 的 变化 产生 影响 ， 但 影响 
不 能 被 梯度 检测 到 ， 这 时 间 上 题 同样 可 能 出 现 。 消 先 梯 度 问 题 侍 一 些 特定 情况 下 使 得 基于 榜 度 
的 训练 鼻 法 中 长 期 依赖 的 学 习 即 使 不 是 完全 不 可 能 也 是 变 得 很 朵 难 。 

在 Bengio 已 到 ,，({1994) 中 ， 对 许多 实际 应 用 曾经 讨论 过 ， 需 要 递 万 网 络 能 够 存 米 任意 
遇 则 长 度 的 状态 信息， 而 让 有 噪声 的 情况 下 是 人 理 有 必 归 这 样 做 。 在 递归 网 络 状态 变量 中 长 期 
存储 的 有 限 位 的 信息 称 为 信息 锁 存 (information latching)。 信 息 锁 存 必须 很 鲁 棒 ， 不 能 被 与 当 
HAES AAR SER. FRAG, FRAT ABREU F {Bengo et al. ,1994 ). 


WRMBKAASA— PRB = 
吸引 子 的 压缩 吸引 集中 ， 则 递归 网 
BO) SPE TS A PE T A SE 


双 明 吸引 子 的 概念 在 14 音 讨 
沦 。 一 个 双 曲 吸引 子 的 压缩 集 是 在 / eS 
RARR- TARE, ABER | eee 
Jacobi HERE BY Aly PTE AB H OT fe) ——— ‘ ae p. iy dh ae BI > 
于 1。 这 就 意味 着 如 果 递 归 网 络 的 状 — B: PAMIR 
态 x(n ETO, MPE E —_ C 
压缩 吸引 集中 ， 那 么 在 x(n) 周 围 的 a 
一 个 不 确定 球 {ball of uncertainty) 的 
大 小 会 随时 间 而 指数 增长 ， 如 图 15- 
16a 所 示 。 所 以 ， 对 于 递归 网 络 输 入 
RUDEE SI (BEP ) BE eR BL IE HE I) A / 
一 个 (可 能 是 错 的 ) 吸 引 盆 。 但 是 如 \、 一 一 
果 状 态 x(n) 继 绿 保 持 在 双 曲 吸引 于 a 状态 x(n) 的 域 
的 压缩 吸引 集中 ， 这 时 在 输入 x(n) b) 
能 够 找到 一 个 有 界 范 围 使 得 x(n TIT 
BERST H—EER ZA, 如 图 a) 状 态 x(n PERSIE BAER 
15-16 所 示 。 YAR DRS x a TERR yA 


长 期 依赖 
为 了 理解 梯度 基础 上 学 习 的 鲁 棒 性 信息 锁 存 的 作用 ,我们 注意 在 时 刻 n J AB RA 
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9 Éa 
Ow 


FAS, A 1 是 学 习 率 参 数 。3E jaw RAM OME, EF w BRE, RO RRE 5B E 
Eai = FD a(n) -了 (Cn 有 


EL, FEP d, (n BRB ogi, y Cn ae i PRR EAT el n 时 的 实际 响应 ， 因 
可 以 写成 的 形式 : 


Awin) = 一 U 一 一 


Aw(n) = q D(F) fd, C) - y(n) 
(15.81) 








dy (nia 
= D HSA Jw RE )~y,(n)) 
其 中 在 第 二 行使 用 了 微 积分 的 链 式 法 则 ; 状态 向 景 x,(n) 属 于 训练 样本 的 第 i 个 模式 ， 在 应 
用 请 如 通过 时 间 的 反问 传播 算法 的 时候， 代价 函数 的 癸 微 分 根据 在 不 同时 间 标 号 的 独立 梭 值 
进行 计算 。 可 以 扩展 方程 (15.31) 的 结果 如 下 : 


ay (in 
Amn) = 9 DEES St gy) (didn) ym) 
第 二 次 应 用 微 积分 的 链 规则 得 到 


dy,(n) Ax, (n) dx ik) 
aw = 9 (SES D ETE) BEC wy} (a, Ca) ~ y(n) (15,82) 


根据 状态 方程 (15.2) 我 们 认识 到 有 

x(n) = px Ck}, un)) leken 
因此 我 们 可 以 把 93x, (nex, (BROW ESE HE BK p, OPER] a-k AREER Jacobi $ 
Fe, BD 














Ax (n) ap(x,(k) un)) 
x(k) 7 ax, Ck) 
在 Bengio et el. , (1994) F, WER MRH A un) 鸽 得 递归 网 络 在 时 间 =0 之 后 人 鲁 榨 地 锁 存 在 
KARSTA, TÆ Jacobi HRF Jin, kbh) ATF k ERB, Aka 
deti Je n, k) +O 5 k — o SATA n (15.84) 
式 (15.84) 的 含义 是 网 络 的 权 什 向量 w 的 一 个 微小 变化 在 最 近 的 过 去 ( 即 接近 当前 时 间 n 的 
的 值 ) 有 作用 。 在 时 间 n 时 可 能 存在 权 值 向 量 w 的 调整 Aw 使 得 x(n) 称 动 到 一 个 更 好 的 状 吸 
$e, (AR GPE et w 的 梯度 并 不 携带 那个 信息 。 
(ARC. RERUNS RS STRATA ERE MSY, RAT 
KA FP) AP 
。 在 输入 信号 具有 了 曝 声 寺 网 络 不 是 鲁 棒 的 ， 或 者 
* 网 络 不 能 发 现 长 期 性 依 冲 (即时 间 间 隔 比 较 长 的 输入 和 目标 输出 之 间 的 关系 ) 
减轻 递归 网 络 中 由 于 消失 梯度 所 产生 的 困难 包括 如 下 可 能 的 过 程 :号 ， 
。 在 训练 过 程 中 ， 利 用 基于 短 符号 串 优 先 的 原则 表示 网 络 以 增加 输入 - 输出 佐 荐 的 时 
FrEE, BS 15.6 节 中 的 启发 方法 。 


= Jín,n — k) (15.83) 
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© 用 扩展 的 Kalman WE AB RR E MERER, be AB TB RE AAE aA HiH eT A is 
Kd; 扩展 的 Kalman HEIR aste 15.10 了 讨论 。 

+ 使 用 请 如 拟 Newton 最 优化 和 模拟 退火 (Bengio et al. 1994 ) 等 里 精致 的 优化 算法 ， 二 
阶 优 化 方法 和 模拟 退火 分 别 竺 第 4 章 和 第 11 章 讨 论 。 


15.13 RBBB 


A AFIR (system identification) 是 对 - -个 过 程 或 - . 族 未 知 参 数 建 模 的 实验 方法 册 . 它 涉 及 
UW Par: 实验 计划 ， 选 择 模 型 结构 ， 参 数 佑 计 和 模型 验证 。 和 实际 中 所 做 的 一 样 ， 系 统 辩 
识 的 过 程 是 迭代 性 的 ， 我 们 可 能 不 得 不 往 这 些 步 又 间 来 回 重 复 直 到 建立 满意 的 模型 为 止 ， 

假设 已 朋 一 个 未 知 的 非 线性 动态 设备 ， 需 要 为 它 建 立 台 适 的 参数 化 的 辨识 模型 ， 我 们 选 
择 在 状态 空间 模型 或 输入 - 输出 贷 型 基础 上 建立 系统 辨识 过 程 。 决 定 由 哪 一 个 上 去 表 示 ， 取 决 
THAR ERE BAAS A. 下 而 ， 对 两 种 表示 都 进行 讨论 。 


使 用 状态 空间 模型 的 系统 办 识 


假设 给 定 的 说 备 (Cpianb) 由 状态 空间 模型 描述 ; 

x(n +1) = fix€n),utn)) (15.85) 

yin) = h(x(n)} (15.86) 

其 中 这 里 长 JA AC -) A REAR PE POR, ARIA; 式 (15.86) 是 式 

(15.11) 的 一 般 形 式 。 用 两 个 神经 网 络 去 辨识 系统 ，-- 个 处 理 过 程 方程 (15.8$)， 另 一 个 处 理 
度量 方程 (15.86)， 如 图 15-17 FR- 

我 们 认识 到 状态 x(n) 是 x(n +1) 的 单 步 延 迟 形 式 。 令 名 (n+ 1) 表 示 由 第 一 个 神经 网 络 产 
生 的 x{n+]1) 的 估计 ， 这 个 神经 网 络 在 图 15- 17a 中 标记 为 I。 这 个 网 络 对 包括 相 部 输入 wn) 
和 状态 x(n) AHE A BEST PAPE LEE fiin +1). MERRE x(n + lL) PETA E n + 
1) 75 BUTE i) Be 

eln +1) = x(n +1) —8{n 41) 
其 中 x(n + L) deBry ER. FEI TORE PURI ARAS x(n) Ri LEA A, REM 
tt e,(n + 如 用 作 调 整 神经 网 络 了 的 突 触 权 值 ， 如 图 15- 17a 所 示 ， 所 以 在 统计 意义 下 最 小 化 
WAG et et n+ 1) 次 基础 的 代价 陋 数 。 

图 15- 17b 中 标记 为 I 的 第 二 个 神经 网 络 ， 通 过 对 未 知 模型 的 实际 状态 x(n) 的 操作 产生 

实际 输出 yCn GTA Fn). MA ytn) 中 减 去 估计 值 $n) 得 到 第 二 误差 向 量 

eln) = y(n) - #(n) 
FO y(n) de SRA YEAR. Wee let er(n) 用 于 调整 网 络 [的 突 触 权 值 ， 使 得 在 统计 
意 习 下 最 小 化 误差 向 量 @ (Cn ARLE. 

图 15-17 所 示 的 两 个 神经 网 络 在 间 步 模式 下 运行 ， 提供 系 统 辨 识 问 题 的 状态 空间 解 
(Narendra and Parthasarathy,1990 ) 。 考 碟 到 未 知 系 统 (而 不 是 辨识 模型 } 的 实际 状态 被 反馈 到 辩 
识 柑 型 这 个 超 实 ,该 模型 被 称 作 串 并 行 状 识 权 型 (series_parallel identification model), ， 如 图 15- 
7a FDR. 根据 15.9 下 最 后 的 讨论 ， 这 种 形式 的 训练 方法 是 教师 强制 的 -一 个 例子 。 

图 15- 17a 的 串 并 行 准 识 模 型 应 该 与 并 行 汰 识 模 型 作 比 较 ， 在 后 一 模型 中 必用 在 网 络 1 
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的 x(n BR RC AIRS HP Rn A ea 一 个 单位 延 时 2 工 从 网 络 目 身 的 箱 出 让 于 + 有 


得 到 的 。 这 个 训练 奉 代 模型 的 实际 好 处 是 神经 网 络 模型 和 未 类 系统 运行 方式 完全 相同 ， 也 就 
是 说 ， 当 训练 结束 后 模型 将 被 使 用 。 因 此 通过 并 行 训练 睛 式 得 到 的 模型 比 通过 串 并 行 方式 训 
练 得 借 的 模 章 有 更 好 的 日 治 行为 。 但 并 行 训练 方式 的 不 利之 处 在 于 它 的 时 间 纶 串 并 行 方式 时 
BRR, 84 15.9 他所 讨论 的 教师 强制 。 特 草地 ， 在 当前 情况 下 用 于 并 行 训练 方式 的 状态 
信 计 值 总 nj) 通常 不 如 用 于 串 并 行 训练 方式 的 实际 状态 x(n) 谁 确 。 


输 人 ACH 
uí it) Ta å er 








b} 


图 15-17 系统 辨识 问题 的 状态 空间 解 
输入 - 输出 模型 


假设 下 一 个 未 知 设备 (plant) 只 能 通过 它 的 输出 访问 。 为 简化 表达 ， 假 设 系统 为 单 输 人 单 
输出 的 。y(n) 表 示 在 不 问 离散 时 刻 n 时 关于 输入 wu(n) 的 输出 。 使 用 NARX 模型 ， 辨 识 模 型 
有 如下 形式 : 

Ftnt1) = olyfa) eyin- q+ hun un w+ 1)) 
其 中 g 是 未 知 系 统 的 阶 。 在 时 间 n+l, 输入 的 9 个 过 去 值 和 输出 的 a 个 过 去 值 都 可 用 。 模 
型 输出 了 tn + 1) 表 示 实 际 输出 y(n + 1) 的 估计 值 。 从 y(n + Dpat on + 全 得 到 误差 
in > 
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e(n4+1) = y(n +1) - ?tn+1) 








其 中 y(n +1) 起 着 期 望 响应 的 作用 。 利 用 误差 etn + 1) 调 整 神经 网 络 的 突 触 权 值 使 得 症 统计 
意义 下 最 小 化 误差 。 因 为 系统 (而 不 是 辨识 模型 ) 的 实际 输出 被 反馈 回 模型 的 输入， 如 图 15- 


18 的 状 识 模型 评 一 个 溃 并 行 形式 ( 即 教师 强制 形式 )。 
输入 实际 输出 


un +1) 未 知 的 动态 yin + 1) 
系统 








预测 输出 
yin + 1) 







u(n -~g+2} 

+ RAS 
u(7i~-g+ 1) 
y(t — ¢ + 1} 


y(n -@ + 2) 






REEF 
etr + 1) 





图 15-13 系统 辨识 问题 的 NARX 解 


15.14 模型 参考 自 适应 控制 


递归 网 络 的 另 一 应 用 是 设计 反馈 控制 系统 、 在 这 里 设备 (plant) 状 态 由 强加 的 控制 非 线 性 
地 耦合 (Puskorus and Feldkamp, 1994; Puskorius et ai. ,1996 )。 系 统 的 证 讨 由 其 他 因素 例如 无 法 
宙 量 的 随机 扰动 、 吕 能 系统 的 道 不 惟一 以 及 出 再不 可 观察 的 系统 状态 而 进一步 复 洒 化 。 
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ia ‘or {EAH A p PPS nll FE A RO E g Y {model reference adaptive control, 
MRAC)S , X E AA fo AO TE Eh SS EY HH Se Pe SR ( Narendra and Annaswany, 
1989 ), 图 15-19 ERRA- PARSER, BOP Ai att ORB RA ot EEA 
AUN eT SE. PR TH aR A AB Sn Fe > ga YY ER re a R, EER- 7 Of} SB a ja 
(externally recurrent) 28, Weft SA .fn) 以 及 外 部 的 -- 个 扰动 tn)。 相 应 
地 ， 设 备 及 时 地 演化 为 强制 输入 和 系统 自身 状态 x, (nm) 的 函数 ， 设 备 输 出 (n+ TD) 是 x ln) 
的 函数 。 设备 输出 也 串 能 被 度量 噪声 所 损坏 。 


i, z 
| AALT e d ed ee ga pe ee ee ye ar 4 
a ee a a a a m"a = Fe eres arate aha” otal lel e 
menn ss eee ale re TE in| Hr Pe r i hl 
ae A Ey, mi: 
5 mu -X,(71).4 PASSE. at = 
cr Fa r +2 mi s 
Me 时 
i | ri 
PF a yt meted 
$ ie + 
E: 
4 j he 
L oo 
a 
| ny y are or poe g Pen. carat baa ae a +t z ay fee } 
k a 






aE Nits ot Tash f 
din +1) 


图 15-19 使 用 直接 控制 的 模型 参考 自 适应 控制 


乏 制 器 接受 两 个 输入 ;外 部 指定 的 参考 信和 导 r(n)， 以 及 表示 设备 输出 y (mn + 1) 单 步 延 

REAR yin) ie EtA SHE, ELA 

u.(n) = fitx,(n).y,(n).r(a),w) 
其 中 x(n) 为 控制 器 日 身 的 状态 ，w 是 可 调 的 参数 向 量 。 向 量 值 函数 (-,-,',:) 定 义 控 制 
arya A — 输出 行为 。 

iaag dtn + 1) 是 和 由 稳定 和 参考 模型 (reference model) 的 输出 提供 的 ， 它 是 响应 参考 
Fn) 而 产生 的 。 期 望 啊 应 d(n+ 1) 因 此 是 参考 信号 rtn) 和 参考 模型 自身 状态 x,(n) 的 函数 ， 
表示 为 

d(n +1) = f,(x,€2),1(n)) 
RA i, ELSA - 输出 行为 。 
输出 误差 { 即 设备 和 模型 参考 输出 之 间 的 误差 ) 记 为 
e.(n +I) = d(n+1)-y,(n +1) 
设计 且 标 是 调整 控制 器 的 参数 向 量 w， 使 得 输出 误差 e,(n) 的 欧 几 里 德 范 数 是 对 时 间 n 的 最 
小 化 。 

图 15-19 的 MRAC 系统 的 控制 方法 被 称 为 直接 的 ， 这 是 指 不 用 辨识 设备 参数 ， 而 是 直接 
调整 控制 社 的 参数 所 高 系统 性 能 。 不 幸 的 是 ， 当 前 还 没有 在 输出 误差 基础 上 训 整 控制 占 参 数 
的 精确 方法 (Narendra and Parthasarathy , 1990 )。 这 是 因为 未 知 设备 处 于 控制 器 和 输出 误差 之 
la). 为 克服 这 个 困难 ， 我 们 可 以 用 间接 控制 (indireet control), ， 如 图 15-20 所 示 。 后 面 这 种 方 
E, TAP ee I ae il ae 
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1. 设备 了 的 模型 记 为 P， 它 是 根据 系统 输出 对 设备 输入 、 以 前 的 设备 输出 和 以 前 的 设备 
内 部 状态 的 微分 关系 的 舍 计 而 得 到 的 。 在 前 一 节 描 述 的 过 程 用 于 训练 神 公 网 络 使 之 
PIRRE: 这 样 得 到 模型 P PARRA. 
2. 使 用 辩 识 模 型 替代 设备 以 得 到 设备 输出 对 控制 器 可 调整 参数 向 量 的 动态 导数 的 佑 
Ts 
在 间接 控制 里 ， 外 部 递归 网 络 包括 控制 器 和 通过 辨识 模型 上 产生 的 设备 输入 /输出 表示 ，。 
在 图 15-20 的 一 般 结构 中 ， 北 妇 网 络 对 于 控制 器 设计 的 应 用 有 一 系列 广 为 入 知 例 子 ， 如 
小 车 - 单 立 持 (cart-pole) 问 题 ， 生 物 反 应 器 标准 测试 (bioreactor benchmark) 问题 以 及 自动 控制 
于 系统 ， 即 发 动机 慢 速 (engine idle-speed ) # H (Puskorius and Feidkamp, 1994, Puskorius et al., 
1996). FEI HEE FERIA EA 15.2 TRIE ABI SE, AY Ui 
H 15.11 EY DEKF 算法 。 但 注意 ， 对 于 发 动机 惕 速 控制 因为 强加 的 控制 (在 适当 选择 的 范 
图 内 ) 单 调 地 影 啊 发 动机 速度 ， 选 择 了 一 个 线性 动态 系统 作为 辨识 模型 。 
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15.15 小 结 和 讨论 


本 童 讨 论 涉及 应 用 全 局 反馈 到 静态 (无 记忆 ) 多 层 感知 器 的 递归 网 络 。 反 馈 的 应 用 使 得 神 
经 网 络 获 得 状态 表示 ， 使 得 它们 成 为 信号 处 理 和 控制 中 各 种 应 用 的 合适 工具 。 属 于 有 全 局 反 
僻 的 递归 网 络 类 型 的 四 个 主要 网 络 结构 如 下 : 
。 使 用 从 输出 层 反 僻 到 输入 屋 的 具有 外 部 输入 的 非 线 性 自 回归 (NARX) 网 络 。 
* 具有 从 隆 藏 层 到 和 输入 层 反馈 的 完全 连接 递归 网 络 。 
° 有 多 于 一 个 隐 闫 层 的 递归 多 层 感知 器 ,其 中 每 个 计算 层 输出 反馈 到 它 自己 的 输入 。 
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。 使 用 一 阶 神经 元 的 二 阶 递归 网 络 。 

ZEA A EIR, RS EIR Ritz. 

前 三 个 递归 网 络 可 以 使 用 状态 空间 框架 研究 其 动态 行为 。 这 个 根植 于 现代 控制 论 的 方法 
提供 一 个 研究 非 线 性 动态 递归 网 络 的 一 个 有 力 的 工具 。 

我 们 描述 三 种 基本 的 算法 来 训练 递归 了 网络 的 算法 ， 通 过 时 间 的 友 向 传播 {BPTT)， 实 时 
HE VA=-J(RTRL), FRAT REY) Kalman 滤波 器 (DEKF)。BPTT Al RTRL 算法 是 建立 在 梯度 基 
it AY, m DEKF 工法 对 访 阶 信息 的 使 用 更 有 效 。 因 此 它 可 以 比 BPTT 和 RITRL 收敛 更 快 ， 
但 也 增加 相应 的 计算 复杂 性 。 实 际 上 DEKF 算法 可 以 看 做 是 一 种 可 能 使 用 的 技术 ， 它 使 得 解 
痰 困难 的 信号 处 理 和 控制 问题 域 为 可 能 。 

理论 上 ， 有 全 局 反馈 (例如 使 用 DEKF 算法 训练 的 递归 多 层 感 知 器 ) 的 递归 网 络 可 以 学 习 
非 定 党 (nonstationary) 环 境 下 的 固有 动力 学 系统 ， 这 是 通过 将 从 训练 样本 中 获得 的 知识 存储 在 
一 个 固定 的 权 值 集合 中 实现 的 。 更 重 竖 的 是 ,假设 满足 下 面 两 个 条 件 网 络 可 以 近 跌 环境 的 统 
HEE: 

* BURZI WY ( underfitting ) 区 过 适应 ( overfitting } > 

© WARE A AS PR SE EBT A 

综观 全 章 ， 我 们 强调 利用 递归 网 络 进行 时 序 处 理 。 递 归 网 络 也 可 以 用 于 处 理 一 系列 有 序 
的 数据 ， 这 些 数 据 并 没有 直接 的 时 序 解释 (如 表示 为 树 的 化 学 结构 )。 在 Sperduti and Starta 
(1997) 中 ， 递 妇 网 络 可 以 表示 和 分 类 结构 化 模式 ， 这 些 模式 可 以 表示 成 有 向 图 、 带 标号 图 和 
无 环 图 的 形式 。 这 种 方法 背后 的 主导 思想 是 在 这 里 被 称 作 * 广 六 递归 神经 元 ”， 这 是 指 一 个 递 
归 神 经 元 ( 妈 具 有 局 部 反馈 的 神经 元 ) 结 构 上 的 推广 。 通 过 使 用 这 样 一 个 模型 ， 监 督学 习 算 法 
沙 如 通过 时 间 的 到 办 传播 和 实时 递归 学 习 者 可 以 被 扩展 以 处 理 结构 化 模式 ， 


it BFAD eM 


[1] 关于 其 他 递归 网 络 结构 ， 匈 Jordan (1986), Back and Tsoi (1991), Frasconi et al., 
(1992), LA Robinson and Fallside( 1991). 

[2] NARX 模型 包括 一 类 重要 的 非 线 性 离散 时 间 系 统 (Leontaritis and Billings, 1985)。 涉 及 到 
神经 网 络 这 方面 的 讨论 可 以 参考 Chen et al., (1990), Narendra and Parthasarathy (1990) , 
Lin et al., (1996) 和 和 Sieglemann et al., {1997}. 
已 经 证 实 NARX $22) +4pi8 SESE FR SCHEER, WA SERRE (Chen el al. , 1990), 
行 水 处 理 设 备 (Su and McAvoy, 1991;Su et al. ,1992)}， 用 寺 石 油 提 炼 的 催化 更 新 系统 {Su 
et al. ,1992)， 在 生物 系统 中 的 多 及 移动 的 非 线 性 振荡 (Yenkataraman,1994) 和 语法 推理 
(Giles and Home, 1994} 。 
NARX 模型 也 指 非 线性 自问 归 请 动 平均 (NARMA) 模 型 ， 其 中 “滑动 平均 "是 对 于 输入 而 

[3] 图 15-4 的 递归 多 层 感知 器 是 Jordan(1986) 捕 述 的 递归 网 络 的 推广 。 

[4] Omlin and Ciles(1996) 指 出 ， 用 二 阶 递归 网 络 ， 和 企 何 有 限 状 态 自动 机 可 以 映射 到 这 样 一 
种 网 络 ， 且 可 以 保证 有 限 长 度 的 时 序 序 列 的 正确 分 类 。 

[5] 可 控 性 和 可 观察 性 的 严格 处 理 可 以 参考 Zadeh and Desoer(1963) Kailath(1980), Sontag 
(1990), Lewis and Syrmos( 1995), 





ww ai bbt.com TAAWAOAA 





YS FE BG AG igi HT FSS NG 


L6] 


[8] 


[10] 


ARAARA A BOL hy LE RITA- 自动 机 的 实现 ) 方 面 的 最 早 工 作 ， 即 第 一 
向 尖 于 有 限 状 态 自 动机 、 人 工 智 能 和 递归 神经 网 络 方面 的 论文 ,是 MeCulloch and Pitts 
(1943) 的 著名 的 论文 。 递 归 网 络 ( 具 有 瞬时 反馈 ) 是 这 篇 论文 的 第 二 部 分 ， 这 在 Kleene 
(1956) 修 解释 为 一 个 有 限 状 人 态 日 动机 。Kleene 的 论文 出 现在 由 Shannon 和 McCarthy 编辑 
H B DIELE (Automata studies) 一 书 中 { 这 本 惊 直 之 作 的 作者 还 包括 Moore, Minsky, 
von Neumann，Uttley，MeCarthy 和 Shannon FA) o AAT, Kleene 的 论文 被 作为 有 限 状 
aan Lae Jy DB — fg OC BE 4 | A] (Perrin, 1990), Minsky (1967) FEAR RGIS 有 限 和 无 限 
Lak) (Computation: Finite and Infinite Machines) 一 书 中 讨论 自动 机 和 神经 网 络 。 

呆 有 关于 旧 动 机 和 神经 网 络 方面 的 时 期 工作 主要 考虑 挎 样 将 二 者 结合 在 一 起 ， 就 是 说 ， 
如 何 建造 和 设计 自动 机 到 神经 网 络 中 大 。 因 为 大 多 数 自动 机 ( 当 被 实现 为 串 行 机 器 的 时 
懂 ) 需 要 反馈 ， 神 经 网 络 必 须 为 谴 归 的 。 注意 早期 的 工作 (除了 Minsky 的 ) 并 设 有 了 明确 
地 区 分 日 动机 (有 问 儿 ， 标 记 图 ， 无 圈 图 ?和 串 行 机 器 (还 辑 延 时 和 反馈 延 时 )， 大 多 数 
情况 下 仪 考虑 有 限 状 态 自动 机 。 对 于 提高 自动 机 的 层次 到 下 推 自动 机 和 图 灵机 没有 仁 
4A SERRE T Minsky 之 外 )。 

在 神经 网 络 的 黑暗 时 代 过 去 之 后 ， 关 于 自动 机 和 神经 网 络 方面 的 研究 在 20 世纪 80 年 
代 又 开始 了 了。 这 个 工作 可 以 大 概 分 为 下 面 三 个 大 的 领域 : (1) 学 习 自 动机 ，(2) 自 动机 
关于 苔 识 的 合成 、 抽 取 和 提炼 ，(3) 表 示 。 首 先 提 到 自动 机 和 神经 网 络 的 是 Jordan 
(1986) 。 

使 用 McCulloch - Pitts 神经 元 的 单 层 递归 网 络 不 能 模拟 任何 有 限 状态 的 机 (Goudrean et 
al., 1994), {A Elman 的 简单 递归 网 络 可 以 作 这 样 的 模拟 (Kremer，1995)。 只 有 局 部 反 
fat ENAH eis 不 能 表示 所 有 有 限 状 态 机 (rasconi and Gori, 1995; Giles et al. , 1995 ; Kremer, 
1996) « 

通过 时 间 的 反 向 传播 的 思想 ， 是 对 于 每 一 个 递归 网 络 都 可 能 建立 一 个 前 馈 网 络 ， 使 之 
在 一 个 特定 的 时 间 间 隔 内 具有 和 它 相 同 的 行为 (Minsky and Papert,1969)。 通 过 时 间 的 反 
同心 播 首先 由 Webo OD 的 博士 论文 讨论 ; 也 可 以 参考 Werbos(1990)。 这 个 算法 由 
Rumelhart et al., 《1986b) 独 卫 地 重 灶 发 现 。 通 过 时 间 的 反问 传播 算法 的 一 个 变 人 由 
Williams and Peng《【1990) 所 讨论 。 对 于 算法 的 综述 和 相关 的 问题 ， 可 以 参考 Williams and 
Zipser( 1995) - 

实时 递归 学 习 算 法 在 神经 元 网 络 文献 中 的 第 一 次 描述 是 Williams and Zipser(1989)。 其 
来 源 可 以 追 湖 到 McBride and Narendra( 1965) 用 于 调节 任意 动态 系统 参数 的 系统 辨识 的 论 
Ws 

Williams 和 Zipser 给 出 的 推导 是 关于 完全 递归 的 单 层 神经 网 络 。 它 已 扩展 为 更 一 般 的 结 
tA; Pw, 2} Kechriotis et al., (1994); Puskorius and Feldkamp(1994)。 

Kalman 主流 器 理论 来 源 于 Rudolf E.Kaiman 1960) 的 经 典 论文 。 它 已 成 为 信号 处 理 和 控 
制 的 楼 心 部 分 ， 并 且 在 很 名 领域 有 很 广泛 的 应 用 。 对 于 标准 Kalman 滤波 器 、 它 的 变 体 
和 它 的 用 于 处 理 非 线性 动态 系统 的 扩展 形式 以 及 它们 的 详细 细节 ， 可 以 参考 Grewal and 
Andrews (1993) #l Haykin(1996)。 由 Grewal 利 Andrews 写 的 书 全 部 讨论 的 是 Kalman 滤波 
人 维和 的 理论 种 实践 。 由 Haykin 写 的 书 ， 从 自 适应 的 滤波 方面 讨论 Kalman 滤波 器 的 理论 。 
力 外 两 本 这 个 方面 的 重要 的 书 是 Jazwinski(1970) 和 Maybeck(1979, 1982) 。 
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11) 平方 根 Kalman #238 2320 Ab ASCARI, w Haykin( 1996) 。 


[12] Singhal and Wut 1i989) 也 许 是 第 一 个 展示 用 扩展 的 Kalman WES BeBe a Ee A oc RER BY 
BRET PERE. TERE, ARBRE RUVIARE SIRE RITE Sate. ART H 
WÈ, Kollias and Anastassiou( 1989), Shah and Palmieri(1990} 尝 试 通过 将 全 局 问题 分 为 一 系 
列子 问题 ， 每 个 子 问 题 表示 一 个 单一 的 神经 元 ， 以 简化 扩展 的 Kalman 滤波 器 的 应 用 ， 
但 是 作为 一 个 辨识 问题 的 每 一 个 神经 元 的 处 理 并 不 是 严格 地 遵守 Kalman 滤波 器 理论 ， 
还 有 ， 这 样 处 理会 溯 致 训练 过 程 中 的 不 稳定 行为 ， 并 且 可 能 得 到 比 别 的 方法 得 到 的 结 
果 还 差 的 解 (Puskorius and Feldkamp, 1991) 。 
[13] 消失 梯度 问题 的 其 他 处 理 方 法 包括 绕 过 一 些 递 归 网 络 的 非 线性 特性 以 便 改 进 长 期 学 习 
的 依赖 性 。 这 种 好 理 的 例子 包括 ; 
。 在 网 络 体 系 结构 中 使 用 长 期 延 返 (Rl Hihi and Bengio, 1996; Lin et al. ,1996; Giles et al. , 
1997 } 
© 杜 不 同时 间 斥 度 联系 的 多 级 网 络 层次 化 结构 (El Hihi and Bengio, 1996) 
* 用 门 单 元 避 开 某 些 非 线 性 性 (Hochreiter and Schmidhuber, 1997) 
14] 系统 辨识 有 许 霓 文献 。 对 于 这 个 主题 讨论 的 书籍 ， 可 以 参考 Ljung( 1987), Ljung and 
Glad (1994)。 对 于 这 个 问题 特别 是 将 重点 集中 在 神经 网 络 上 的 综述 可 以 参考 Sjöber et 
al., (1995) 和 Narendra ( 1995)。 使 用 神经 网 络 对 于 系统 辨识 进行 详细 的 研究 首先 是 
Narendra and Parthasarathy( 1990). 
[15] 对 模型 参考 自 适 应 控制 的 详细 讨论 W Landan( 1979) 的 书 。 
习题 
状态 空间 模型 
15.1 号 出 图 15-3 的 Elman 简单 递归 了 网络 状态 空间 模型 的 计算 公式 。 
15.2 证 实 图 15-4 的 递归 老 层 感知 器 可 以 用 状态 空间 模型 
x(n +1) = f(x€n),uln)) 
y(n) = glx(nj),uta)} 
RI, HF un RRMA, yCn) sen, x(n 表示 状态 ,人 和 gf ORR HEHE 
24 FE PAK 
15.3 ”一 个 动态 系统 是 否 可 能 是 可 控 的 但 不 可 观察 的 ， 而 且 反 之 亦 然 ? 证 实 你 的 答案 。 
15.4 参考 15.3 节 的 局 部 可 控 性 问题 ， 证 实 
(a) 状态 x(n + 9) 是 它 过 去 值 x(n) 和 式 (15.24) 的 输入 向 量 n(n) 的 嵌 套 非 线性 函数 。 
(b)x€n +9) 对 u, (a) Jacobi PEER RS PR (15.23) ESE M, 
15.5 BRR 15.3 市 的 局 部 可 观察 性 问题 ， 证 明 完 义 在 式 (15.30) 中 的 观察 向 量 y (n) Xf 
状态 x(n) BY) Jacobi 和 托 阵 在 原点 的 求 值 等 于 式 (15.28) 的 可 观察 矩阵 M. 。 
15.6 非 线性 动态 系统 的 过 程 方程 由 
Xn + l) = fix€n),uCer)) 
WE, P utn) 是 在 时 刻 n 的 输入 向 量 ，xt nn) 是 对 应 的 系统 状态 。 输 入 ugn) 过 程 方程 中 
以 非 加 性 的 方式 出 现 。 在 本 题 中 ， 我 们 希望 重新 瑟 过 程 方程 ， 使 输入 u(n) 以 加 性 的 方式 出 
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15.7 全 15-22 提出 在 神经 元 级 上 的 使 用 局 部 反馈 的 递归 网 络 模 型 的 两 个 例子 。 在 图 中 
的 a 部 分 和 上 b 部 分 显示 的 体系 结构 分 别称 为 局 部 激活 反 策 和 局 部 输出 反馈 (Tsoi and Back, 
1994)。 对 这 两 个 递归 网 络 的 体系 结构 ， 写 出 状态 空间 模型 公式 ,评价 它们 的 可 控 性 和 可 观 
察 性 - 


u(n) 输出 


y(n) 





mA 


uin} 
seas H oe 
a > 激活 函数 


图 15-21 
3a) 局 部 激活 反 僻 体系 结构 bi 局 庚 输 出 反馈 体系 结构 


有 外 部 输入 的 非 线 性 自 回 归 (NARX)}) 模 型 

15.8 参考 15.4 TRI NARX 模型 ， 证 明 式 (15.16) 和 (15.17) 的 使 用 导致 NARX 模型 的 输 
出 y(n+9) 关 于 状态 x(n) 和 输入 向 量 u (nm 的 表达 如 人 下: 

yilan + q) = Plx(n),u,(n)) 

Hpo: RR, u, 按 式 (15.29) 定 义 。 

15.9 (a)15.4 节 讨论 的 NARX 模型 的 推导 是 单 输入 单 输 出 系统 。 讨 论 那 里 描述 的 理论 
如 何 推广 到 多 输入 多 输出 系统 。 

(DÆ ITE 15.6 中 的 两 个 输入 一 个 输出 的 状态 空间 模型 的 NARX。 

15.10 建立 对 应 于 图 15- 22 中 的 完全 弟 电 网 络 的 NARX， 

15.11 在 13.4 人 我 们 证 明了 任何 状态 空间 神 型 可 以 表达 成 NARX 模型 。 反 过 来 的 结果 如 
何 ? 任何 的 NRAX 模型 是 否 都 可 以 表达 成 15.3 节 形 式 的 状态 空间 模型 ?说明 你 的 结论 的 理由 。 
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15.12 展开 图 15-3 的 状态 空间 徐 型 的 时 施行 为 。 

15.13 截断 的 BPTT(R) 算 法 可 以 看 作 是 分 癌 合 的 BPTT 算法 的 近似 。 可 以 通过 将 分 回合 
BPIT 算法 的 一 些 方面 包括 进 BPI 站 ) 来 提高 这 个 近似 程度 。 特 别 是 可 以 让 网 络 在 执行 下 一 
个 BPIT 订 苯 前 通过 个 附加 步 ， 这 里 k < 和。 通过 时 和 章 的 有 反 同 传播 的 混合 形式 的 重要 特征 
是 下 一 个 后 问 传 播 在 时 间 步 x + 六 之 后 才 执 行 。 在 此 期 间 ， 网 络 过 去 输入 值 、 网 络 状态 和 期 
望 的 啊 永 都 存 鱼 在 一 个 缓冲 区 里 面 ， 但 并 不 对 于 它们 进行 处 理 (Williams and Peng,1990 )。 在 
这 个 混合 型 的 算法 中 给 出 神经 元 j 的 局 部 梯度 的 公式 。 

ARE HF 
15.14 教师 强制 递归 网 络 在 训练 过 程 中 的 动态 在 15.8 节 中 描述 ,但 是 要 除开 下 面 的 变 
化 : 
wrn), MREMA 
Eln) = \d,Cn), mei Ee € 
y(n), MRL CA -% 
EPSE E APPR A Pip i ABA. ARRA E 是 一 个 神经 元 的 输出 时 下 标 i 
的 集合 ， 折 表示 可 见 的 输出 神经 元 的 集合 。 

(a) 证 朋 对 这 个 格 武 ， 伯 导 数 3y{n+1)/19wna(n) 由 下 式 给 出 (Williams and Zipser, 1989 ): 

yaa _ eo D wln) al +é kn) 

bA TAUPE ol 2 YS AR HE EH 
Sead Rey) Kalman 滤波 器 {DEKF) 算 法 

15.15 拱 述 图 15-3 的 DEKF 算法 刀 何 训练 食 单 递归 网 络 。 对 于 这 个 训练 也 可 用 BPTT 算 
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15.16 用 通常 的 形式 ，DEKF 被 用 作 执 行 权 值 吕 新 ， 一 个 例子 接 一 个 例子 的 方式 进行 。 
及 之 ， 在 标准 反 癌 传 擂 里 ， 执 行 税 单 的 梯度 更 新 ， 这 使 我 们 可 以 选择 立即 使 用 这 些 更 新 述 是 
将 这 些 更 新 积累 一 恕 时 间 ， 然 后 将 它们 作为 单一 的 组 合 更 新 。 昌 然 可 以 在 DEKE 算法 中 尝试 
积 素 ,但 这 样 懂 也 有 可 能 在 权 值 回 量 和 误差 协 方 差 矩 阵 间 造成 不 一 致 ， 该 矩阵 是 每 个 时 间 递 
妇 部 更 新 一 次 ， 以 产生 一 个 权 值 更 新 。DEKF 训练 算法 的 使 用 表现 为 排除 集中 式 更 新 。 但 可 
以 使 用 多 流 (multistream)DEKEF 训练 ， 它 允许 多 个 训练 序列 的 进行 ， 又 保持 与 Kalman 滤波 器 
理论 的 一 致 性 ，Feldkamp et al., (1997), Feldkamp and Puskorius{ 1998) 中 的 描述 。 

La) 考虑 有 Na TRAM NTR Ae N 个 训练 样本 的 训练 问题 。 对 训练 样本 来 
说 ,组 成 型 短 六 个 数据 流 以 馈 给 好 个 网 络 ， 这 些 网 络 受 到 具有 和 相同 权 值 的 限制 。 在 每 个 
训练 簿 环 ， 每 个 数据 流 中 的 模式 呈现 给 各 自 的 网 络 ， 对 于 每 个 数据 流 计算 出 WN 个 输出 。 
然后 计算 单个 权 值 更 新 并 以 同样 的 方式 又 应 用 到 每 个 流 的 网 络 。 推 导出 DEKF 算法 的 多 流 
的 形式 。 

(bh) 考虑 标准 XOR 问题 的 四 种 训练 模式 。 假 设 有 一 个 连接 到 输出 层 的 延迟 线 记 忆 的 前 
mM, RTA Re ee a. 反馈 到 延迟 线 记 忆 的 实际 的 网 络 输出 ， 三 个 它 
的 延 直 形式 ， 它 们 中 的 每 一 个 组 成 一 个 新 的 网 络 输出 。 对 这 个 网 络 结构 以 一 定 的 顺序 应 
用 四 种 训练 模式 ,但 不 执行 权 值 更 新 。 当 第 四 个 训练 模式 结束 后 ， 就 有 了 四 个 代 宕 四 种 
训练 模式 处 理 过 程 的 网 络 输出 ， 这 是 在 具有 相同 权 值 的 网 络 上 进行 的 。 如 果 考 虚 在 四 种 
训练 模式 和 四 个 网 络 输 出 的 基础 上 执行 DEKF 算法 的 单一 权 什 向量 更 新 ， 就 有 了 四 个 流 问 
题 。 检 查 该 实例 。 

— Bot aa Yl E 

15.17 FERRED, TAN ee OO PRR AS BL, PETER O, 
1 序列 中 ， 这 个 自动 机 可 以 识别 奇数 个 1。 

图 15-23 显示 两 种 状态 的 上 自动 机 。 状 态 由 痪 图 表示 ， 箭 头 表 示 状 态 的 转变 。3 表示 我 们 
在 那个 状态 开始 ， 在 这 里 是 状态 4。 粗 圆圈 表示 无 论 休 时 达到 了 那个 状态 ， 如 图 中 的 状态 
8， 我 们 就 接受 该 字符 申 。 上 自动 机 于 始 检 查 状 态 4 的 字符 串 ， 如 果 进 到 一 个 0 就 回 到 状态 
A, WREE 1 WIAA B。 相 似 地 ， 当 在 状态 B 的 时 候 ， 如 果 遇 到 一 个 0 就 回 到 状态 B, 
WRBA 1 则 回 到 状态 4。 以 这 种 方式 ， 如 果 有 偶数 个 1( 和 包括 0 个 ) 则 自动 机 在 状态 4， 如 
果 有 奇数 个 1 则 在 状态 B 





is} 15-23 


时 正式 地 定义 状态 O=1A, Bl, 5-4 ARRAS, BAFRAD = 10, 11, HBR 
AA F= B, RARE: 
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8(4,0} = A 
6(A,1) = B 
8(8,0) = B 
8(B,1) = A 
对 于 二 阶 递归 了 网络 ， 这 就 是 式 {15.9) 的 应 用 需要 的 一 些 等 式 。 关 于 有 限 状 态 自 动机 的 细节 ， 
风 Hopcroft( 1979). 
ti ERR BRL DU ETT Se BS BY) R Pe 
15.18 在 15.8 77, 我们 导出 使 用 一 阶 神经 元 的 完全 连接 递归 网 络 的 实时 递归 学 习 
(RTRL) 算 法 。 在 15.2 布 ， 我 们 描述 使 用 二 阶 神经 元 的 递归 网 络 。 
通过 推导 用 于 训练 二 阶 递归 网 络 的 RTRL 算法 ， 推 广 15.8 节 描 述 的 理论 。 


I! 
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神经 网 络 代表 一 种 多 学 科 主 题 ， 它 植 根 于 神经 科学 、 数 学 、 统 计 学 、 物 理学 、 计 算 机 科 
学 和 和 工程 学 ， 这 可 出 这 本 书 所 涵盖 题 烤 的 多 样 性 为 证 。 它 们 在 有 教师 或 无 教师 入 况 下 从 数据 
He TARE TR ER A TE. ROSA RA RC IR PPE PS 
VATA BRAN BP He AE CE SS Zep ) A BE, TAS EMERE A 
成 为 非常 宝贵 的 工具 ， 比 如 建 模 、 时 间 序 列 分 析 、 模 式 识 别 、 信 和 与 处理 和 控制 。 苦 别 地 ， 当 
一 个 感 兴趣 的 问题 的 解 由 于 以 下 一 点 或 几 点 变 得 困难 时 ， 神 经 网 络 可 提供 大 量 的 东西 : 

© 献 乏 问 题 的 物理 /统计 的 理解 。 
© 在 可 观 系数 据 中 的 统计 变化 
© 数据 产生 的 非 线 性 机 和 制 。 

坦 经 网 络 的 新 浪 济 (从 20 E 80 年 代 中 期 开始 ) 已 经 来 临 ， 估 为 学 习 可 以 在 许多 层次 进 
行 。 基 于 学 习 算 法 的 神经 网 络 使 我 们 可 以 在 于 写 体 识别 器 中 免除 手工 特征 提取 。 由 神经 网 络 
激发 的 基于 棉 度 的 学 习 算 法 允许 我 们 同时 训练 特征 提取 闫 、 分 类 器 和 上 下 文 处 理 器 ( 隐 
Markov 模型 和 语言 模型 )。 由 于 神经 网 络 我 们 学 会 了 从 像素 到 符号 的 所 有 途径 。 

学习 兴 透 到 数目 月 益 增 加 的 各 种 应 用 四 能 机 苍 的 每 小 层面 。 因 此 ， 这 篇 后 记 淮 对 攻 些 智能 


机 器 和 神经 网 络 在 建立 它们 时 的 作用 的 最 终 评论 结束 全 书 是 适宜 的 。 [790 | 
智能 机 器 
由 于 管 能 "的 科学 定义 尚 不 统一 并 旦 篇 幅 有 限 ， 我 们 不 i 
冒险 讨论 智能 是 什么 。 相 反 ， 我 们 将 我 们 对 智能 机 器 的 简要 
解释 限制 在 三 个 具体 应 用 领域 的 背景 下 : 模式 分 类 、 控 制 和 z 
信和 号 处 理 。 这 里 要 认识 到 没有 “通用 的 "智能 机 器 ; 相反， 我 
们 只 是 有 针对 具体 应 用 的 智能 机 器 。 | 
神经 网 络 的 大 部 分 研究 工作 集中 于 模式 分 类 。 由 于 模式 ere 
分 类 的 实际 重要 性 和 它 的 相当 广泛 性 ， 以 及 神经 网 络 如 此 适 
于 解决 模式 分 类 任务 的 事实 ， 研 究 努 力 的 这 种 集中 确实 是 应 im 


该 的 。 这 样 做 我 们 已 经 能 够 为 自 运 应 模式 分 类 打下 基础。 但 
是 ， 我 们 已 经 到 达 另 一 个 阶段 ， 如 果 希 望 成 功 解决 更 加 复杂 
和 困难 的 模式 分 类 问题 ， 我 们 必须 在 一 种 更 广泛 的 意义 上 思 | tym 
考分 类 系统 。 图 1 描绘 “假定 的 "分 类 系统 布局 (Hammerstrom 
and Rahfuss, 1992) 。 系 统 的 第 一 层 接 受 由 信息 源 产 生 的 感觉 数 。 图 ! 用 于 模式 分 类 的 智能 
据 。 第 二 层 提取 刻画 感觉 数据 的 一 组 特征 。 第 三 层 将 特征 分 人 
类 为 一 个 或 几 个 不 相同 的 类 ， 然 后 由 第 四 层 将 它 放 人 全 局 背景 中 。 最 后 ， 例 如 、 对 最 终 用 户 “[ 弄 | 
我 们 可 能 将 分 析 后 的 输入 放 人 某 种 数据 库 形 式 中 。 刻 画图 1 系统 的 重要 特征 包括 ; 

识别， 起 因 于 信息 从 系统 的 一 层 前 向 流动 到 下 一 层 ， 这 如 同 在 传统 的 模式 分 类 系统 
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一 样 
+ 集中 ， 任 和 借 系统 较 高 层 能 够 选择 性 地 影响 较 低层 的 信息 处 理 ， 这 要 依靠 从 过 去 数据 
获得 的 知识 


因此 图 ] 中 显示 的 模式 分 类 系统 的 新 颖 性 在 于 目标 领域 的 知识 ， 以 及 在 给 定 有 限 信息 处 
理 能 力 的 基本 约束 下 ， 它 锌 系统 较 低 居 利 用 以 便 提 局 整 体系 统 性 能 。 我 们 相 情 使 用 神经 网 络 
的 模式 分 类 的 演化 必 将 禄 着 创建 模型 的 方向 进行 ， 这 种 模型 将 持续 受到 日 标 领 域 甚 识 的 影 
Mel. 我们 设想 用 于 模式 分 类 的 新 一 类 管 能 机 器 将 提供 如 下 属性 : 

” ERE a RRJ., 并 晶 通 过 全 中 (focusing) 的 使 用 利用 这 种 能 蕊 

© 央 识 的 局 部 化 长 未 而 不 是 分 布 式 表示 

© 稀 藻 结构 ， 强 调 网 络 的 模 鼠 性 和 层次 性 作为 神经 网 络 设计 的 原则 


这 样 一 种 智能 机 纶 的 实现 民有 依 诽 组 合 神 经 网 络 和 共 他 
含 适 工具 才 有 可 能 得 到 。 这 里 想到 的 - -个 有 用 卫 具 是 Viterbi i 
算法 ， 它 是 动态 规划 的 一 种 形式 ， 设 计 用 于 对 付 囊 行 信息 处 oo E 
E, REPER ER { 中 描述 的 系统 的 固有 特征 - (动态 规划 管理 和 组 织 层 
算法 在 第 12 Siti.) E 

另 一 个 自然 适合 神经 网 络 的 应 用 领域 是 控制 ， 它 也 是 沿 
善 智能 控制 站 的 方向 演化 。 自 治 是 控制 系统 设计 者 ~… 个 重大 DRE 
自 标 ， 而 辕 能 控制 器 是 达到 这 个 目标 的 - -种 方法 。 图 2 显示 E 
HE A ete dl aeRO BET, PET RE H TE el ae EP eR 执行 层 
觉 的 过 程 (设备 ) 一 端 有 一 个 界面 ， 而 在 人 和 其 他 系统 的 一 端 
有 另 一 个 界面 {Antsaklis et al. ,1996; Passino, 1996)， 系 统 有 二 5 
个 功能 层 ， 小 结 如 下 : 

1. 执行 蝴 ， 它 具有 用 于 自 适 应 控制 和 辨识 的 低层 信号 处 图 2 USES ee 
理 自 法 和 控制 算法 . 机 器 功能 结 移 


2. 协调 层 ， 它 通过 监管 诸如 调谐 、 监 督 、 和 危机 管理 和 计 
划 等 事项 提供 执行 屋 和 管理 导 之 间 的 联系 。 

3. 党 理 和 组 织 层 ， 它 提供 较 低 层 的 功能 监督 和 对 人 的 界面 的 管理 。 

既然 经 风 控 制 是 粗 根 于 线性 微分 方程 组 理论 ， 智能 控制 主要 是 基于 规则 的 ， 因 为 在 其 使 
用 中 涉及 的 相关 性 非常 复杂 以 致 不 允许 有 解析 的 表示 。 为 了 处 理 这 种 相关 人 性， 使 用 模糊 系统 
数学 和 神经 网 络 基 合适 的 。 模 糊 系 统 中 的 功能 在 于 它们 的 能 力 ，(1) 量 化 语言 输入 ，(2) 快 速 
给 出 复杂 的 和 通 滑 未 知 的 系统 和 输 人 - 输出 规则 的 工作 近似 。 神 经 网 络 的 功能 在 于 它们 从 数据 
中 学 习 的 能 力 。 在 神经 网 络 和 模糊 系统 之 间 存 在 一 个 自然 的 量 侍 协同 ， 使 得 它们 的 混合 对 着 
能 控制 和 其 他 应 用 而 言 是 一 个 强 有 力 的 工具 、 

直面 轩 人 信号 处 理 ， 它 也 是 神经 网 络 另 一 个 有 丰富 应 用 的 领域 ， 这 是 因为 神经 网 络 的 非 
线性 和 目 运 应 特征 (aykin,1996)。 对 于 在 实际 中 冰 到 的 信息 承载 信号 (例如 语音 信号 、 雷 达 
信号 和 声 纳 信号 )， 产 生 尼 们 的 大 多 数 物理 现象 部 是 由 非 平稳 和 复杂 的 非 线 性 动态 系统 控制 ， 
使 得 它们 的 精确 数学 描述 成 为 不 可 能 。 为 了 在 所 有 时 间 利 用 这 种 信号 的 所 有 信息 内 容 ， 我 们 
需要 用 于 信号 处 理 的 智能 机 器 5 。 它 的 设计 解决 下 列 关 键 论题 ; 

* 非 线 性 性 ， 它 使 得 提取 输入 信号 的 高 阶 统计 成 为 可 能 。 


ww ai bbt.com PO00ODOO 





AY 10, 583 
a Sige, MAT Re SEY AA ARAIA RI E A RL pl AE jE Be oe 
iE A ieee Pp see E Te AE, 
* 注意 机 制 ， 作 全 和 它 系统 通过 和 最 终 用 户 区 互 或 者 以 日 组 织 的 方式 ， 能 够 集中 它 的 计 
算 能 力 针对 图 像 的 其 -- 特 别 的 点 或 空间 中 的 特定 位 置 ， 进 行 更 详细 的 分 析 “5 
AS AH TS eB SPL eet, ER 
L. RAR, CMR EAS PE, AF 
CREE a DEP Re A] FA Ue BR Hi Dak AR ey A Lt E 
信号 处 理 操 作 ， 如 时 频 分 析 "”…,， 时 频 分 析 的 日 标 是 撒 述 信和 号 
BHA Aa ial ie AER PAT A. Ri, E 
WAE > A — BE TED ea EPR LER, EY A] 
i AERA, NET AA, AF 
种 证 比 原始 时 域 形式 清楚 的 方式 突出 收 到 信号 的 非 平稳 特性 。 
2. 党 习 和 自 适 应 层 ， 其 中 沁 忆 (长 期 的 和 短期 的 ) 和 注意 
SLBA ASEH FFA SERRE aR 
Niet SRR eA Bed, ARRAS EE 
ETF TE PISA RI SAAR TEL . ALS 7S EIERE TAY BS SE E 图 3 用 于 信号 处 理 的 智能 
变化 ， 一 个 让 上 自 适应 系统 ( 朗 在 无 监督 方式 下 运行 的 连续 学 习 机 器 功能 结构 
FAS) TES A a a eS EE i e — 
个 注意 网 络 * ， 凭 借 它 系统 可 以 集中 它 的 注意 于 收 到 信号 的 重要 特征 ， 这 可 以 在 需要 时 通过 
“Tei” (rating MARE AIR R CAN A MAM, 
3. 决策 层 ， 其 中 系统 作出 最 终 判 决 。 判 决 可 以 是 感 兴 趣 的 目标 是 香 出 现在 收 和 到 的 诸如 
直达 或 声 纳 的 信号 中 ， 或 者 在 数字 通信 中 收 到 的 估 息 比特 是否 对 应 符号 1 或 0; 在 决策 中 也 
提供 置信 级 。 
我 们 并 不 主张 这 里 描述 的 系统 是 在 系统 中 智能 可 以 能 人 模式 分 类 、 探 制 和 信号 处 理 的 惟 
一 方式 。 相 反 ， 它 们 代表 能 实现 这 个 重要 上 月 标的 系统 化 方法 。 尽 管 它 们 存在 应 用 领域 的 差 
T, ETW EREA — HHA Ei Valvanis and Saridis, 1992: Passino, 1996) - 
* ARRESE E AREA, FEA A i 
© 较 丙 层 经 遂 关 心 系 统 的 那些 处 理 时 间 较 慢 、 范 围 较 广 和 楼 向 时 间 较 长 的 行为 . 
© 当 我 们 从 秒 低 层 移 到 较 高 层 时 随 着 精 虚 的 降低 等 能 在 升 向 。 
© FEM, AACR Ar PREC BD AE FST) 
我 们 在 第 1 SCE ARR AB OR BAP eae CA TA aie, AB 794] 
FETZER Ss ER. AA ESL aE fh eR A Be Bo, SRBC ASEH A LE 
BET ia BW ee, Bl RSL SEA SS A ae pb E 





yt REFN SSN 
OGI MAS fel BSS RBA ARTE it, 2 Ackerman( 1990), Albus (1991) 和 Kosko 
(1992). 


2] Viterbi FJARKI Viterbi ARE ATR i (a AL FERR E, EF Viterbi 算法 
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Sag E a 


的 指导 性 处 理 ， 和 参见 Fomey( 1973) . 
关于 模式 分 类 应 用 中 涉及 卷 积 了 网络 (在 第 4 章 描 述 ) 和 Viterbi RARR GREHA, Bl 
LeCun et al. (1997,1998 )., 

智能 控制 企 White and Sofge( 1992), Antsaklis and Passino( 1993), Gupta and Sinha( 1996) 和 
Tzefestas( 1997 ) F hq Fe 8 THe. 
模糊 理论 由 Zadeh(1965,1973) 创 立 ， 为 处 理 语言 变量 ( 即 用 自然 语言 描述 的 概念 ) 提 供 
数学 工具 ， 以 ARE. SA Dubois and Prade(1980)。 在 Kosko( 1997) 的 
书 中 ， 采 用 一 种 不 同 的 观点 : SRSA TER OBIT aS. FACE EA ee AR 
任何 连续 贤 数 或 者 系统 ， 内 要 模糊 系统 使 用 足够 多 的 规则 。 

Fa SA A T LEMES Institute of Electrical and Electronic Engineers, EEE 会 刊 1998 年 的 
一 期 专 败 讨论 智能 信和 好 处 理 的 主题 (Haykin and Kosko, 1998) , 

用 于 分 屋 集 中 或 选择 注意 的 自 组 织 系 统 在 Fukushima (1988a) 中 描述 。 系 统 是 由 
Fukushimat 1975, 1988b) 创立 的 分 层 神经 认 知 机 的 变形 。 系 统 能 够 在 具有 多 个 字符 的 图 
像 中 集中 注意 于 单个 字符 或 者 集中 注意 于 变形 很 大 且 被 噪声 损害 的 字符 。 

HÉR IE E PLH E A-A h Carpenter and Grossberg( 1987, 1995) FF RAY $ E A R 
(adaptive resonance theory ,ART) 的 特征 。 用 于 自 适 应 模式 识别 的 ART PER BIK ERE 
波 和 目 顶 加 下 的 模 极 匹配 的 组 侣 。 

建立 在 经 典 Fourier 理论 上 的 时 频 分 析 的 许多 方面 的 细节 处 理 ， 参 看 Cohen { 1995) 的 书 
Fio 
Wigner 分 布 为 双 线 性 /一 次 时 频 表 示 的 重要 工具 ， 基 于 Wigner 分 布 的 理论 和 应 用 ， 和 参看 
Mecklenbriuker and Hlawatseh{ 1997 的 书籍 . 
对 于 用 斥 度 而 不 用 频率 思考 的 另 -` 种 季度 ， 参 见 Vetterli and Koragevic( 1995) 关 于 小 波 
(wavelet) 和 了 于 市 编 担 的 相关 论题 的 书籍 。 
TE van de Laar et al.(1997) 中 描述 用 于 选择 性 转换 视觉 注意 的 神经 网 络 模 型 。 这 个 模型 
根据 所 完成 的 任务 通过 调制 在 孩 注 意 阶 段 的 信息 流 能 够 学 会 集中 它 的 注意 于 重要 特征 ， 
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practical considerations, 755-756 20 hR25 IE 
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Boltzmann machine, 562-569 Boltzmann Ë. 
deterministic, 578-579 ”确定 性 
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Boosting, 357, 387 HE% 
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filtering method, 357 WEDT 
reweighting method, 357 重新 加 要 方法 
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Brain-state-in-a-hox (BSB) model, 703-709 PAR 
clustering, 707-709 BA 
dynamics of, 706-707 动态 的 
Lyapunov function of, 705-706 Lyapunov be ay 
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Broyden-Fletcher-Glodfarb-Shanno algorithm, 244 
Brovden- Fletcher-Glodfarb-Shanno 算法 
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Cascade-correlation learning, 250 2RERAB IES 
Cauchy-Schwarz inequality, 140  Cauchy-Schwarz 不 等 
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Cerebral cortex, cytoarchitectural map, 10 AAA A IE, 
细胞 第 构图 
Chaos, 709-722 Wif 

correlation dimension, 713 ”相关 维 

definition of, 714 EM 

Lyapunov exponents, 713— 714 Lyapunov 指数 

dynamic reconstruction of, 174— 718 Zh) HH) 
Chemoff bound, 193 Chernoff 7+ 
Church-Turing hypothesis, 748 Church-Turing Wih, 
Classification and regression tree (CART), 374 分 类 和 
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Cocktail party phenomenon, 72, 109, 54 TRS 
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Cohen-Grossberg theorem, 701 - 703, 705 Coben- 
Groasberg 定理 
Combinatorial optimization, 560 HARRE 

analogy with statistical physics, 561 与 统计 物理 学 


FEEL 
Committee machine, 351 委员 会 术语 
Competitive learning, 56, 294, 448 EPEY 
rule for，59 规则 
Computational complexity, 104, 292 ”计算 复杂 性 
exponential time algorithm, 347 HHA EATE 
polynomial time algorithm, 347 ”多项式 时 间 算 法 
Condition number，132 条 性 数 
Conjugate-direction method. 238 ” 共 办 方 侣 方法 
Conjugate-pradient method, 236-242 ” 共 辆 梯度 方法 
Brent’s method, 242 Brent 方法 
comparison with Quasi-Newton’s method, 244— 245 
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Fletcher-Reeves formila, 239 Pletcher-Reeves 公式 
line search, 240-242 此 搜索 
Polak-Ribiére formula, 239 Polak-Ribiére 3% 
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summary of, 243 小 结 
Connectionism, 226-227 ”连接 机 制 
Content-addressable memory, see Hopfield model 按 内 
PAL ites, BA Hopfield 模型 
Contextual maps, 474 上下文 映 射 
Continuous leaming, 83, 750 FEY 
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Correlation coefficiem, 473, 507 相关 系数 
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Correlation matrix, 127, 397 XA 4 

Correlation matrix memory, 79-83 MARERE 
relation to LMS algorithm, 153 ”和 LMS BRAKE 

Cortical (computational) map, 9, 444, 477 in (it 

算 ) 映射 = 

Covers theorem on the separability of pattems, 257 — 261 

HAAR Cover 定理 

Credil-assignment problem, 62, 164, 603 ”信任 赋值 

GE 

Cross-correlation vector, 128 7E FASE a H 

Cross-validaiou, 213-218 ZNA 
early stopping method, 215-217 早期 售 正 方 活 
generalized, 288 推广 
Jeave-one-out method, 218 fa— APE 
model selection, 214-215 ”模型 选择 
multifold cross-validation, 217-218 ”多重 交 及 确认 

Cumulant, 516 RH iR 

Curse of dimensionability, 21] ~ 212, 291 - 292, 617 
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Darwiman selective leaming, 106 Darwin FYH 

Dannuis' theorem, 543° Dannois 1E M 

Davidon-Fletcher-Powell algorithm, 244 Davidon- 

Fletcher-Powell 算法 

Delia-bardejia leaming, 251, 253 增 基 - 增 量 学 习 

Dendrite, 7 P% 

Deterministic annealing, 586- 592 ”确定 性 退火 
analogy with EM algorithm, 592 与 EM 算法 类 比 
clustering, 586-59] RŽ 
Hidden Markov model, 596 fi Markov 异型 
pattern classification, 596 模式 分 类 
resression, 596 PUH 
vector quantization, 596 jo] Hitt, 

Differential entropy, 488 MAr 

Differentiation with respect to a vector, 150 - 151 
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Dimensionally reduction, 401 #AM 

Dot product, see Inner product, SAH, SAWER 

Dynamic programming, 603 动态 规划 
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dynamic programming algorithm, 608-609 动态 规 
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Gauss-Seidel method, 631 Gauss-Seidel AE 
principle of optimality, 607 — 608 ”最 优 性 原则 
Dynamic reconstruction, 714-718 sy Sr Fy 
embedding delay, 715 ABR HEIK 
method of false nearest neighbor, 716 ERSAN 
recursive prediction, 716-717 TBI BUR 
Takens’theorem, 715 Takens 定理 
Dynamical systems, 666-609 动态 系统 
definition of, 666 X 
Lipshitz condition, 668-669 Lipshitz 421 
state (phase) portrait, 667 RAR CA A 
state space, 666-668 状态 空间 
e-insensitive loss function, 339 — 340 
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Echo-locating bat, |, 33 [se (eee 
Edgeworth expansion, 540 WAiad fe 
Figervalue, 398 特征 值 
Figervalue problem. 398 特征 值 问题 
Figervector, 398 ”特征 向 量 
dominant, 403 3 fc 
Empirical risk functional, 91 #23 PUE? ps 
strict consistency, 92 PY RS AA 
Empirical risk minimization, principle of, 92 £336 
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Ensemble averaging method of lecaming，353，387 224 
FAL YF Ba E 
Entropy, in information-theoretic sense, 487 W, FEL 
BiG SF 
Entropy, in thermodynamics sense, 548 W, FETE 
BMF 
Equivariamt property, 520-521 等 价 性 质 
Error back-propagation algorithm, see Back-propagation 
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Entor-correction learning, 51 
Error energy, 52 TRZEHE TE 
Error-performance surface, 63 in PERE H E 
Euclidean distance, 26 Euclid E EE 
Euler-Lagrange equation, 270 ~ 271 
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Excitatory-inhibitory network, see Gradient descent- 
gradient ascent dynamics XA- MMA, BRR 
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BE -梯度 上 升 功 力学 
Expectation: maximization (EM) algorithm, 381 — 382 
期 望 最 大 化 (EM) 算 法 


applied to HME model, 383 应 用 于 HME HHI 


Factorial distribution, 496, 581 AA 
Feature apace, 199, 258, 329 ”特征 空间 
Feedback, 14, 18 反馈 
global, 664 £A 
local, 664, 786 局 部 
Feedforward network, 21, 156, 256 ”前 馈 网 络 
fully-connected, 22 全 连接 
multilayer, 21 3 
partially-connected, 22 部 分 连接 
single-layer, 21 HAE 
Financial market data analysis, ICA for, 513 金融 市 场 
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Finite-duration impulse response filter, 648 有 限时 间 
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Fisher's informalion matrix, 388 Fisher 信息 矩阵 
Fisher's linear discriminant, 201 -202 Fisher 线性 判别 
Fletchen-Reeves formula, 239 Fletchen-Reeves 公式 
Fréchet differential, 268 - 270 Fréchet 微分 
Free energy, 547 自由 能 量 
Fuzzy system，793 RRI 
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(rauss-Newton method, see Optimization technique 
Gauss-Newton TE, SARAHA 
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Generalization, 2, 25, 205-208 ik, r 
training set size for, 208 PARRA 


Generalized cross-validation, 287-289 PSARY HRA, 
Generalized Hebbian algorithm (GHA), 414 广义 Hebb 
算法 (GHA) 

convergence, 416 WARK 

optimality of, 417 ”最 优 性 

summary, 418 -pA 
Generalized Loyd algorithm, 456 广义 Lloyd 算法 
Generalized sidelobe canceler, 74 D M SoHE) BREE 
Gibbs distribution, 547, 594, 599 Gibbs 分布 
Gibbs sampling, 561-462 Gibbs ###% 

convergence theorem, 562 AAEM 

ergodic theorem, 562 iJ ze FE 
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rate of convergence theorem, 562 收 合 速度 定理 
Global minima, definition, 249 ”全 局 最 小 ， 定 区 
Gradient desceant-gradient ascent dynamics, 724 eg 
下 降 -梯度 于 知 动 力学 
Gram Charlier expansion, 515, 537 — 340 
Charlier 展开 
Green’s function, 271 Green HHI 
Green's identity, 270 Green 恒等式 
Green's matrix, 274 Green EPF 
Growth function, %4 生长 路 数 
H, criterion, 151, 230 H. HEM 
Heaviside function, see Threshold function 
a, SSR AAR 
Hebbian leaming, 55 Hebb 学 习 
covariance hypothesis, 57 DA ÆRE 
generalized, FO JOSHY 
Hebis postulate, 57, 394 Hebb 假设 
synaptic enhancement, 56 Z AAI gE 
Hebbian synapse, 55 Hebb 32 $ 
anti-Hebbian, 56 J& Hebb 
properties of, 55 ”性质 
Helmholtz machine, 574-575 Helmholtz 机 器 
Hessian matrix, 124, 204 Hessian 矩阵 
computation of inverse, 224-225 WAHE 
Hesteness-Stiefel formula, 254 Hesteness-Stiefel 公式 
Hidden Markov models, 596, 643 BE Markov 模 迎 
Hidden neuron, 21, 157 ”隐藏 神经 元 
Hierarchical clustering, 438 HERA 
Hierarchical mixture of experts ( HME) model, 372 4) 
faite tr & A CHME) RA 
learning strategies for, 380 "EH cH 
Hierarchical vector quantization, 470 4+ (ej BE 
Hilbert space, 269, 309 Hilbert 45/8] 
Hopfield model (network), 680 - 696 Hopfield 模型 
网络) 
energy function, 682 RERAN 
energy landscape, 686 BEE HUES 
fundamental memory (prototype state), 687 基本 记 
忆 ({ 原 型 状态 )】 
mixture state, 701 ”汇合 状态 
leaming rule for, 690 $2773 il] 
load parameter, 694 ”装载 参数 
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回溯 阶段 
反 转 基本 记 


retrieval {recall} phase, 689 - 690 

reverse fundamental memory, 699 — 701 

tZ 

signal-to-noise ratio, 694 {REEL 

spin-glass state, 701 旋转 玻璃 体 状态 

spurious states, 692-693 伪 状 态 

存 情 容 量 
storage phase of learning, 688-689 学 可 的 存储 乔 
段 

Hotelling’s deflation technique, 416 Hotelling Fe Sete AR 

Hybrid system, 37, 793 JRO Ra 

Hyperbolic tangent function as activation function, 13, 

169 激活 函数 为 双 曲 正切 函数 


EFRI, BAA les 
Image coding, 419 Hf He 
Independent components analysis, 510-525 Jia 
分 析 
activation function for, 517-519 WIAs 
convergence considerations of learning algorithm, 523 
Fd RE TE SE 
equivariant property, 520-521 AEA tE 
leaming algorithm for, 519-520 学习 算法 
natural gradient for, 521 AHR 
performanes index for, 525 TERETE tr 
stability of leaming algotithm, 521-522 学 习 算 法 
的 稳定 性 
Induced local field, definition, 11 
infimum, 91 下 确 界 
Influence matix，2 闻 ”影响 矩阵 
Information preservation mle, 373 ”信息 保持 规则 
Information theoretic models of neural networks, 484 +} 
经 网 阁 信息 理论 模型 
Informon, 537 
Inner product, 26 ”内 积 
Inner-product kernel, 330, 433 ARH 
Inner-product space, 310 ARF H 
Integrate-and-fire neuron, 725-726 集中 点 火 神 经 元 
Intelligent machines, 790-794 F¥REULSS 
for control, 792-793 ”用 寺 控 制 
for pattern recognition, 74] - 792 用 于 模式 识别 
for signal processing, 793-794 MTR GAlm 
Interpolation theorem, 262-264 ATE 


storage capacity, 693 — 696 


identity map, see Replicator 


诱导 局 部 域 ， 定 义 
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interpolation matrix, 264 AIER 
Inverse problem, 265 Hi 
conditions for well-posedness, 266 Awat 
Iteratively reweighted least-square, 389 Eft SINE Re 
小 乎 方 
Jacobian matrix, 125, 204, 670 Jacobi E 
computation of, 202-204 计算 
Jensen's inequality, 391 Jensen 不 等 式 


Kelman filter, 151, 762- 765 Kalman 滤波 器 
conversion factor, 765 转换 因子 
divergence phenomenon, 765 发散 现象 
ermor-covaniance matrix, 764 ”误差 协 方差 矩阵 
filtered estimation eror, 765 HEH 
innovation, 763 更 新 
square root, 763 平方根 
summary, 764 小 结 
Kalman filter, decoupled extended, 765-770 Kalman #2 
Weak, AAR FE 
artificial process noise, 769 ATHERE 
computational complexity, 770-771 计算 复杂 性 
multistream, 788 ÆJ 
summary, 769-770 p% 
Karhuner-Loéve transform, sce Principal components 
analysis Karhunen-Loéve BH, 参看 主 分 其 分 析 
Keme] matrix, 433 HEF 
Kemel principal components analysis, 432 
oT 
summary, 435 -hé 
Knowledge, definition, 23 知识， 定义 
Kullback-Leibler divergence (distance), 487, 495 一 497 
Kullback-Leibler 散 度 {距离 ) 
pythagorean decomposition, 497 Pythagoras 分 解 
relation to mutual information, 496 与 互信 息 的 关系 


核 主 分 量 分 


Lateral inhibition, 59 全 向 抑制 
Leaming, 25 学习 

definition, 50 定义 

statistical theory, 84 ”统计 理论 
Learning task, 66 FHES 

beamforming, 73 ”波束 形成 

comrol, 70 控制 

filtering, 71 JIE 

function approximation, 68 MAGM I 
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pattem association, 66 ARH 
模式 识别 
Learning vector quantization, 467 Ale e tt 
有 教师 学 习 
Learning without a teacher, 64 ALAS] 
Least-mean-square (LMS) algorithm, 128-135 原 小 
均 方 算法 
convergence, 130 ~ 132 Ky ay 
LMS-Newton algorithm, 153 LMS- Newton 算法 
learning curve, 133-134 “FJ 曲线 
learning-rate annealing, 134-135 FHKE 
misadjusunent, 133 RWE 
normalized LMS aleonthm, 152 正规 化 的 LMS 算法 
Least-squares filter, linear, 126-128 fe’) FEHR 
Likelihood ratio, 145, 188 {MFA E 
log-likelihood ratio, 146 WAAR th 
likelihood ratio test, 145 {274 Heine 
Line search, 240-742 BRB 
linear separability, 138 总 性 可 分 性 
Linsker’s model of mammalian visual sytem, 345 
Linsker 的 哺乳 动物 视觉 系统 模型 
Little model, 726 JHA 
Local minima, definition, 249 Aih, EX 
Logistic function, 14, 45, 168 Logistic 图 数 
Long-term potentiation (LTP), 107 长 期 电位 (LIP) 
Lyapunov’s theorems, 673-674 Lyapunov 定理 
Lyapunoy function, 674 Lyapunov A% 


Mahalanobis distance, 27 Mahalanobis Fb Ej 
Marginal enumpy, 497 ae 
Markov blanket, 583 Markov Fe 
Markov chains, 548-556 Markov 链 
Chapman- Kolmogorov identity, 550 Chapman 
classification, 555 gA 
definition, 348 EX 
ergodic, 551 M 
ergodicity theorem, 552 遍历 性 定理 
irreducible, 550- 551 不 可 约 
principle of detailed balance, 555-556 44777 fm 
则 
recurrent property, 550 递归 性 质 


pattem recognition, 7 


Leaming with a teacher, 63 
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stale-transition diagram, 553 状态 转移 名 
stochastic matrix, 549 MEPLIE RF 
transition probability, 549 ”转移 概率 
Markovian decision processes, 604 - 606 Markov HE 
We 
Matrix inversion lemma, 225 78K S| 
Maximum a posteriori (MAP) estimation, 389 EA 
ae (MAP) {hit 
Maximum eigenfilter, Hebbian based, 404 eA RF AE 
Hewes, EF Hebb 的 
stability, 408 ”稳定 
Maximum entropy method for blind source separation, 529 
-533 ATR RAARAMA IL 
equivalence with maximum likelihood, 531 
KEIR 
learning algorithm, 532-533 学习 算法 
Maximum entropy (Max Ent) principle, 490 BAHR 
理 
Maximum likelihood estimation, 378 fe AA (ait 
log-likelihood function, 379 对 数位 然 函数 
property, 388 性质 
Maximum likelihood eshmation for blind source separation, 
525-528 用 于 言 源 分 离 的 最 大 似 然 佑 计 
relationship with independent components analysis, 527 
-528 ”和 独立 分 量 分 析 的 关系 
Maximum mutual information ( Infomax } principle, 484, 
49-33 最 大 互信 息 原 则 
model for perceptual system, 504-505 感知 系统 模型 
relation to redundancy reduction, 503-505 与 元 用 
Fl Pee BH 
McCulloch-Pitts model, 14, 38, 135 
异型 
Mean-field theory, 576-578 平均 场 理 论 
Memory, 75 12072 
associative, 67 ”联想 
correlation maiix, 79-83 ”相关 短 阵 
crosstalk, 81 EE 
distributed, 75 AR 
long-term, 75 长 期 
recall, 80 回忆 
short-term, 75 短期 
Memory, short-term structure, 636 — 640 init, BA 
fn ty 
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CRE 
memory resolution, 638 记忆 人 分辩 率 
Memory-based leaming, 53 Æ Tutz- 
k-nearest neighbor nile, 54 -最 近邻 规则 
nearest neighbor rule, 54 $I SAL 
Mercer’s theorem, 331 Mercer 定理 
Method of Lagrange multiplier, 2273, 323, 490 
Lagrange ÆT HE 
dual problem, 323, 328, 342 XHEP 
duality theorem, 324 ”对 偶 性 定理 
Kuhn-Tucker condition, 323 Kuhm-Tucker 424 
primal problem, 323, 328, 342, RHA 
Method of steepest descent, see Optimization technique, 
unconstrained ”最 速 下 降 法 ， 共 看 最 优化 技术 ， 无 约 
R 
Metropolis algorithm, 556 -- 558 Metropolis 算法 
Michelli’s theorem, 264- 265 Michelli $E HE 
Minimum description length (MDL) criterion, 253 Beep 
描述 长 度 准 则 
Mnmmonm norm solutien, see Pseudomverse 最 小 范 数 
6, 2a thw 
Minor components analysis (MCA), 440 3&4} 84) 47 
(MCA} 
Mixture of experts (ME) model, 368 
模型 


memory depth, 638 


混合 专家 (ME) 


Model-reference adaptive control, 780-782 参考 模型 
自 适 应 控制 
Modularity, definition, 352 HHE, MY 
Monomial, 259 ”单项 式 
Multilayer perceptron, 156 2 ERG 
bounds on approximation error, 209- 211 i8ViiRe 


Kat 

feature detection, 199, 227 ”特征 检测 

feature space, 199 EF PIE ZS E] 

recurrent, 736-737 递归 
Multinomial probability, 369 SERAF 
Multivariate Gaussian functions (distribution), 275, 297, 
492 ÆT Gaus RA T) 
Mutual information, 492 543 & 

tor self-orgunized leaming, 498 ABT Bees 

property, 493 性质 


NP-complete problem, 347 NE 完全 问题 
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Nadaraya Watson regression estimator, 296, 479 
Nadaraya- Watson [FATE ita 
Natural gradient, 521, 540 自然 梯度 
Nat, 486 á $f 
Neocognitron, 108, 251, 795 ”神经 认 知 机 
NETialk, 641 ~ 642 
Network pruning technique, 218-226 ”网络 修剪 技术 
approximate smoother, 221 -222 ia write a 
complexity regularization, 219-222 ‘2 oe PETE DHE 
optimal brain damage, 222 最 优 脑 损伤 
optimal brain surgeon, 222-226 最 优 脑 外 科 
weight decay, 220 WRM 
weight elimination, 220 ABH: 
Neural networkk ， 神 经 网 络 
adaptivity, 3 Big SE 
architecture, 21 ”结构 
definition, 2, 17 ÆM 
fault-tolerance, 4 容错 
mMput-output mapping, 3 ”输入 -输出 映射 
invariances built into, 29 A ARETE 
neurobiological analogy, 4 E4 Hyak tE 
property, 2 ERE 
Neurodynami: programming, 603-634 神经 动态 规划 
finite-horizon problem, 606 A PRISE 
infinite- horizon problems, 606 ”无限 范 团 问题 
policy, 106 策略 
relation to reinforcement leaming, 603 
+] 
Neuron, 7 #90 
models of, 10, 15 #4 
Neuronal filters 神经 流 波 器 
distributed, 648 分布 式 
focused, 644 ”集中 式 
Reuromorphic systems, 5 神经 形态 系统 
Newton’s method, 235 Newton 方法 
Neyman-Pearson criterion, 28 WNeyman-Pearson HEH 
Nonlinear principal components analysis, 434, 440 JE 
Se PE E 5) ab 
Normed space, 267, 309 #30, 47/5) 
QOecam’s razor, 206. 363 Occam 剃刀 
Optimal brain surgeon algorithm, 226 最 优 脑 外 科 算 法 
Optimal hyperplane, 320 最 优 超 平面 
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quadratic method for computing, 322 - 325, 326 it 
算 的 二 次 方法 
slatistical property, 325 Sitti 
Optimization technique, unconstrained, 121-126 #4, 
化 技术 ， 无 约束 
Gauss-Newton method, 124- 126 Gauss-Newton 方 
法 
method of steepest descent, 121-122 最速 下 降 方 
法 
Newton's method, 122-124 Newton 方法 
quasi-Newton method, 242 il Newton 方法 
Ordered derivative, 755 有 序 导数 
Orthogonal similarity transformation, 399 iF 26 49 (1 & 
PR 
Outer product rule, see Hebbian learning 
SF Hebb 学 习 


Partition function，547” 剖 分 出 数 
Perceptron, 135- 143 AAE 
relation to Bayes classifier, 143-148 与 Bayes 分 类 
让 的 关系 
Perceptron convergence algorithm (theorem), 141 ÆN 
A EE FE FE) 
summary, 142 ”小结 
Piecewise-linear function, 14, 703 DRAKY 
Plasticity, 1 可 塑性 
Polak-Ribiére formula, 239 Polak-Ribiére 公式 
Policy, 606 I 
Policy iteration, 610-612 策略 选 代 
approximate, 619-622 iH 
Positive definite matrix, definition, 15] 
pi 
Prediction, 72, 645, 771 ”预测 
Principal components definition, 400 ERREN 
Principal components analysis, 396 十分 量 分 析 
adaptive method, 431 HEMNE 
batch methods，431 集中 式 方法 
decorrelating algorithm, 430 去 相关 算法 
eigenstructure, 397 特征 第 构 
nonlinear, 434, 440 4FERTE 
principal subspace, 430 EPZ] 
reestimation algorithm, 430 fhitBie 
Principal curve (surface), 440, 461 Ei HE) 


FERE, E 


ee 


Principle of detailed balance, 555- 556 绝 节 平衡 原则 
Principle of minimal free energy, 348 最 小 日 由 能 车 腺 
则 

Principle of minimum redundancy, 504 ”最 小 元 余 诛 则 
Principle of orthogonality, 85, 402 EZEIN 
Principle of topographic map fornation，445 拓扑 有 映射 
形成 原则 

Probably approximately correct (PAC) model, 102 — 105, 
357 可 能 近似 正确 (PAC) 模 型 

Probability of correct classification, 191 正确 分 类 概率 
Probability of error ( misclassification), 191 {R # (H 
St) 

Pruning, see Network pruning technique 
络 修剪 技术 

Pseudo-diflerenial operator，276 MIRT 
Pseudoiverse, 127, 284 {Am 
Pseudotemperature, 15, 547 要 温度 


Q-factor, 610-611 QA 

(leaming, 622-627, 631-632 (hf 
approximate, 624-625 通 近 
convergence theorem, 623 Yi ie HH 
exploration, 625-627 探索 

Quadratic programming, 345 二 次 规划 
commercial library, 348 FFA EF 

Quasi-Newton method, 242 {1-Newton 方法 


Rachal basis function, 264 #2 Ja) 3 pay 
Gaussian, 264, 275, 297 Gauss 的 
Inverse multiquadric, 264 WEK 
multiquadric, 264 ZIK 
Radial basis-function (RBF) network, 256 mAAR 
(RBF) 两 络 
approximation property, 290-293 EtA 
comparison with multilayer perceptron, 293 Fle /2 
FRA ater LEE 
compulational complexity, 292 计算 复杂 性 
generalized, 278-280 三 只 的 
learning strategy, 298-305 ”学习 策略 
normalized, 296 JH—4k RY 
relation to kemel regression, 294 与 核 回 归 的 关系 
sample complexity, 292 FETE 
Random walk, 597 PAHLI IF 
Real-time recurrent leaming, 756-762 实时 递归 学 习 
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computational complexity, 771 HARER 


sensitivity graph, 761 ÆR 
summary, 760 -p2 
teacher forcing, 762, 787 教师 强迫 
Receptive field, 28, 45, 87, 282 ”接受 域 
Recurrent (neural) network, 18, 23, 677-678 递归 
(神经 ) 网 络 
Recurrent network, dynamically driven, 732 ~- 789 if 
妆 网 络 ， 动 态 驱 动 
computational power, 747-749 ”计算 能 力 
cantrollability and observability, 741-742 可 控制 性 
和 可 观察 性 
heuristics, 751 启发 式 
inpul-output mode], 733-735 输入 输出 模型 
learning algorithm, 750-751 学 习 算 法 
local controilabihty, 743-744 局 部 可 控制 性 
local feedback, 786 ”局 部 反馈 
local observability, 744-746 ”局 部 可 驱 窒 性 
network architecture, 733-739 WIE k 
nonlinear autoregressive with exogenous input, 746 ~ 
747 具有 外 部 输入 的 非 线 性 自 回归 
recurrent multilayer perceptron, 736-737 HA 
Fe A a 
second-order model, 737-~ 739 二 阶 模型 
state-space model, 735-736, 739-746 状态 空间 
模型 
vanishing gradients, 773-776 ”消失 梯度 
Recursive least-square (RLS) algorithm, 151 
平方 (RES) 算 法 
Redundancy, 394, 503 开采 
measure for, 505 度量 
Regression, EUH 
kernel, 294-298 核 
nonlinear, 85, 285 ” 非 线性 
ridge, 311 k 
Regression surface, 371 


递归 最 小 


问 归 曲面 
Regularization network, 277-278 IF dh les 
Regularization theory, 219, 267 正则 化 理论 
applied lu dyruumic reconstruction, 718 应 用 于 动态 
H fA 
regularization parameter, 268, 284-290 正则 化 参 
syi 


Reinforcement learning, 64-65, 603, 631 增强 式 学 
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-村 
Relative entropy, see Kullback-Leibler divergence 相对 
Wi, 2824 Kullback-Leibler BUS 
Relative gradient, see Natural gradient FORTHE, $ 
至上 自然 梯度 
Replicator, 227 — 229, 250-251 
Retina, 5 视网膜 
Reimannian space, 540 Reimann 空间 
Riesz representation theorem, 269 Ries 表示 定理 
Robusiness, 151, 230 ®t., ttt 
Rosenblatt’s perceptron, see Perceptron Rosenblatt 感知 
a, BARBS 
Saddle point, 670 Pa 
Saliency, 223 ”显著 性 
Sample complexity, 104 样本 复杂 性 
Sauer’s lemma, 99, 110 Sauer 纪 | 理 
Schlafli’s theorem，309 Schlafli 定理 
Search-then-convergence learning schedule, 135 搜索 后 
GN SAP Od al FE 
Self-organization, 65, 393 
principle of, 393 ”原则 
Self-organizing map (Kohenen’s model), 446 ÁRI 
射 (Kohenen 模型 ) 
hatch version, 459 ”集中 式 
competitive process, 448, 478 wpm 
conscience algorithm, 481 知觉 算法 
convergence phase, 453 Ate Bit Ee 
cooperative process, 449 合作 过 程 
density matching, 460 ”密度 匹配 
neighborhood function, 450 48 ipa ax 
ordering phase, 452 ”排序 阶段 
property, 454 TEMI 
renonommalized algorithm, 450, 483 ” 重 正规 化 算法 
summary, 453 -ph 
synaptic adaptation, 451, 478 ” 窒 触 适应 
topological ordering, 459 ”拓扑 序 
Semanhe maps, see Contextual maps i MARES, SẸ 
| -下文 晚 射 
Sensitivity, 203, 230 RR 
Shape-from-shading, 438 HERIR 
Sigmoid belief network, 569-574 sigmoid 信 度 网 络 
deterministic, 579-586 ”确定 性 
learning rule, 571-573 学习 规 则 
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mean-field distribution, 580 ”平均 场 分 布 
mean-field equation, 583 ”平均 场 方 程 
Sigmoid function, i4 sigmoid 1#% 

Signal-flow graph, 15 信和 号 流 图 
basic rule, 16 ”基本 规则 

Singular value decomposition, 431 
singular value, 431 AHA 
singular vector, 431 奇异 器 量 

Simulated annealing, 558-560 模拟 退火 
annealing schedule, 559-560 退火 进度 

HE E 


IEAA 


combinatonal optimization, 560 -— 561 
Slack variable, 326, MI Witt 
Smoothing, 72 光滑 
Smoothness, measure a, 310 wt., EE 
Spatially coherent feature, 506-508 空间 相干 特征 
Spatially incoherent feature, 508 - 510 =A F 
征 
Spectral theorem, 399 WEHE 
Spectrogram, 642 i9 
Spline, FE Se 

thin-plate, 312 $E 
Stability, 672-673 稳定 性 

Lyapunev’s theorem, 673-674 Lyapunov 定理 
Stubility-plasticity dilemma, 4 ”稳定 性 - 可 塑性 困境 
Stagecoach problem, 614-617, 627-629 ” 驿 车 问题 
State-space model of recurrent network, 739-746 递归 
网 络 状态 空间 模型 
Statistical independence, 495 统计 独立 
Statistical mechanics, 346-5348 统计 力学 
Stochastic machines rooted in statistical mechanics, 545 — 
595 HER FSH AS Lae 


Storage capacity of a surface, 261-262 曲面 的 存储 容 
i 
Stochastic approximation, 135 AULIE 


Structural risk minimization, 100- 102 结构 风险 最 小 
化 
Sub-Gaussian dismihution, 541 次 Gauss 分 布 
Super-Gaussian distribution, 541 $ Gauss 分 布 
Supervised leaning, 63 AREF 
as ill-posed hypersurface reconstruction problem, 265 
-266 如 不 适 定 的 曲面 重 构 问 题 
as oplimization problem, 234-245 dmb ae 


Support vector, 321 MRF) 


® H 


Support vector machine, 318 32 fF IEL 
comparison with back-proprogation learning, 338 一 339 
与 反问 传播 学 习 比 较 
optimum design, 332 最 优 设计 
pattern recognition, 329 模式 识 项 
regression, 340 回归 
Subspace decomposition, 403 —- 23/8) 4}4¥ 
iH 
Synapse, 6 HR 
chemical synapse, 6 44323 fh 
Synaptic convergence, 16 RMR 
Synaptic divergence, 17 ZMH 


supremum, 91 


System identification, 120, 659, 776-770 # ot # 
识 ， 系 统 识别 
input-output model, 778—779 输入 输出 模型 


state-space model, 776-778 状态 空间 模型 


Tapped-delay-tine memory, 638 - 639 #54 HEIR RHE 
i 
[DP-eammon, 631 
时 间 差 分 学 习 
Temporal processing, 635-663 肝 问 过 程 
network structures for, 640 -— 643 242579 
Threshold function, 12 MAA% 
Tikhonov functional, 268 Tikhonov 77. 65 
Tikhonoy-Philips regularization, see Regularization theory 
Tikhonov-Philips 正则 化 ， 参 看 正则 化 理论 
Time, 635 mhi 
explicit representation, 635 


Temporal difference learmng, 631 


EARI 
implicit representation, 635 RARI 
Time-delay neural network, 641 — 643 时间 延迟 神经 
网 络 
Time-frequency analysis, 795 ”时 频 分 析 
Time-lagged feedforward network, 636, 659 ”时间 滞后 
前 馈 网 络 
distributed，651 分布 式 
focused, 643-646 ”集中 式 
universal myopic mapping theorem, 646-647 iB FA 
UT PRR SY E E 
Topographic maps, & 拓扑 映射 
Travelling salesman problem, 597-598 ”旅行 商 问 题 
solution using Hopfield model, 723-724 使 用 
Hopfield 模型 的 解 
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Turing 机 
Unit-delay operator, 19 Hfi HEIR BATE 
Universal approximation theorem, 208-209, 229 通用 
逼近 定理 
Univereal myopic mapping theorem, 646-647 通用 近 
FRR PTE EE 
Unsupervised learning, 65 REZY 
Value iteration, 612-617 Eitt 
Vanishing gradients problem, 773-776 7946 jn) Bi 
VC dimension, 94-98 WC IE 
bound, 97, 110 FF 
definition, 95 SES 
Vestihule-ocular reflex, 5 Bue flor he SY 
Voronoi cell, 466 Voronoi 单元 


Tunng machine, 748 


O33 


Volterra mode!, 7627 Volterra 模型 


Weak learning model, 358 ”器 学 习 模 者 

Weierstrass theorem, 249 Weierstrass 定理 
Weight-sharing, 28, 89 ARE 

Weighted norm, 280 DEFES 

Wiener filters, 127 - 128 Wiener XEU 45 
Wilshaw-von der Malsburg’s model, 446 Wiilshaw-von 
der Malshurp fie H 

Winner-takes-all neuron, 58 胜 者 全 得 神经 元 
Woodbury’s equality, see Matrix inversion lemma 
Woodbury FA. SAEM HE 

AOR problem, 175-178, 252, 260-261, 282 - 284, 
335~ 337 XOR 问题 


7-transform, 637 了 变换 
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